Artículos de investigación en IA seleccionados diariamente con traducciones
La Interfaz Gráfica de Usuario (GUI) basada en fundamentos mapea instrucciones en lenguaje natural a ubicaciones precisas en la interfaz para interacciones autónomas. Los enfoques actuales de aprendizaje por refuerzo utilizan recompensas binarias que tratan los elementos como objetivos de acierto o fallo, generando señales dispersas que ignoran la naturaleza continua de las interacciones espaciales. Inspirados por el comportamiento humano al hacer clic, que naturalmente forma distribuciones gaussianas centradas en los elementos objetivo, presentamos GUI Gaussian Grounding Rewards (GUI-G^2), un marco de recompensas fundamentado que modela los elementos de la GUI como distribuciones gaussianas continuas en el plano de la interfaz. GUI-G^2 incorpora dos mecanismos sinérgicos: las recompensas de punto gaussiano modelan la localización precisa mediante distribuciones que decaen exponencialmente centradas en los centroides de los elementos, mientras que las recompensas de cobertura evalúan la alineación espacial midiendo la superposición entre las distribuciones gaussianas predichas y las regiones objetivo. Para manejar diversas escalas de elementos, desarrollamos un mecanismo de varianza adaptativa que calibra las distribuciones de recompensa según las dimensiones de los elementos. Este marco transforma la fundamentación de la GUI de una clasificación binaria dispersa a una optimización continua densa, donde las distribuciones gaussianas generan señales de gradiente ricas que guían a los modelos hacia posiciones óptimas de interacción. Experimentos extensos en los benchmarks ScreenSpot, ScreenSpot-v2 y ScreenSpot-Pro demuestran que GUI-G^2 supera sustancialmente al método de vanguardia UI-TARS-72B, con la mejora más significativa del 24.7% en ScreenSpot-Pro. Nuestro análisis revela que el modelado continuo proporciona una robustez superior a las variaciones de la interfaz y una generalización mejorada a diseños no vistos, estableciendo un nuevo paradigma para el razonamiento espacial en tareas de interacción con GUI.
Los modelos de lenguaje de gran escala han evolucionado recientemente desde la generación fluida de texto hasta el razonamiento avanzado en diversos dominios, dando lugar a los modelos de lenguaje de razonamiento. Entre estos dominios, el razonamiento matemático sirve como un punto de referencia representativo, ya que requiere lógica precisa de múltiples pasos y razonamiento abstracto, lo cual puede generalizarse a otras tareas. Aunque los modelos de lenguaje de razonamiento de código cerrado, como GPT-3, demuestran capacidades de razonamiento impresionantes, su naturaleza propietaria limita la transparencia y la reproducibilidad. A pesar de que muchos proyectos de código abierto buscan cerrar esta brecha, la mayoría carece de suficiente apertura al omitir recursos críticos como conjuntos de datos y configuraciones detalladas de entrenamiento, lo cual dificulta la reproducibilidad. Para contribuir a una mayor transparencia en el desarrollo de modelos de lenguaje de razonamiento, presentamos la serie MiroMind-M1, un conjunto de modelos de lenguaje de razonamiento completamente de código abierto construidos sobre la arquitectura Qwen-2.5, que igualan o superan el rendimiento de los modelos de código abierto existentes. Específicamente, nuestros modelos se entrenan en dos etapas: ajuste fino supervisado (SFT) en un corpus cuidadosamente seleccionado de 719K problemas de razonamiento matemático con trayectorias de razonamiento en cadena (CoT) verificadas, seguido de un entrenamiento de refuerzo con verificación (RLVR) en 62K problemas desafiantes y verificables. Para mejorar la robustez y eficiencia del proceso RLVR, introducimos la Optimización de Política Multi-Etapa Consciente del Contexto, un algoritmo que integra entrenamiento progresivo en longitud con una penalización de repetición adaptativa para fomentar un entrenamiento de refuerzo consciente del contexto. Nuestro modelo logra un rendimiento de vanguardia o competitivo y una eficiencia superior en tokens entre los modelos de código abierto basados en Qwen-2.5 de 7B y 32B en los benchmarks AIME24, AIME25 y MATH. Para facilitar la reproducibilidad, publicamos la pila completa: modelos (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); conjuntos de datos (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); y todas las configuraciones de entrenamiento y evaluación. Esperamos que estos recursos apoyen investigaciones futuras y fomenten el avance de la comunidad.
Los avances recientes en modelos de razonamiento a gran escala destacan el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) como un método prometedor para mejorar las capacidades de la IA, particularmente en la resolución de tareas lógicas complejas. Sin embargo, sigue sin estar claro si el RLVR realmente expande los límites del razonamiento de un modelo o simplemente amplifica las salidas de alta recompensa que el modelo base ya conoce para mejorar la precisión. Este estudio presenta una investigación teórica y empírica que ofrece nuevas perspectivas sobre los límites potenciales del RLVR. En primer lugar, proporcionamos una nueva perspectiva teórica que sugiere que el RLVR está limitado por el soporte del modelo base—incapaz de muestrear soluciones con probabilidad inicial cero—y opera como un mecanismo de reponderación conservador que puede restringir el descubrimiento de soluciones completamente originales. También identificamos una compensación entre entropía y recompensa: aunque el RLVR mejora de manera confiable la precisión, puede reducir progresivamente la exploración y potencialmente pasar por alto soluciones correctas pero subrepresentadas. Experimentos empíricos extensos validan que, aunque el RLVR mejora consistentemente el pass@1, la reducción del soporte empírico generalmente supera la expansión del soporte empírico bajo presupuestos de muestreo más grandes, lo que impide recuperar respuestas correctas que antes eran accesibles para el modelo base. Curiosamente, también observamos que, aunque el RLVR a veces aumenta la entropía a nivel de token, lo que resulta en una mayor incertidumbre en cada paso de generación, la entropía a nivel de respuesta disminuye, lo que indica que estos caminos aparentemente más inciertos finalmente convergen en un conjunto más pequeño de respuestas distintas. En conjunto, estos hallazgos revelan límites potenciales del RLVR para extender los horizontes de razonamiento. Romper esta correa invisible podría requerir innovaciones algorítmicas futuras, como mecanismos de exploración explícitos o estrategias híbridas que distribuyan masa de probabilidad en regiones de soluciones subrepresentadas.
Los avances recientes en modelado generativo permiten asistentes de edición de imágenes que siguen instrucciones en lenguaje natural sin necesidad de aportes adicionales del usuario. Su entrenamiento supervisado requiere millones de tripletas: imagen original, instrucción e imagen editada. Sin embargo, la extracción de ejemplos con precisión a nivel de píxeles es compleja. Cada edición debe afectar únicamente las regiones especificadas en la instrucción, preservar la coherencia estilística, respetar la plausibilidad física y mantener el atractivo visual. La falta de métricas automatizadas robustas para evaluar la calidad de las ediciones dificulta la automatización confiable a gran escala. Presentamos una canalización automatizada y modular que extrae tripletas de alta fidelidad en diversos dominios, resoluciones, complejidades de instrucciones y estilos. Basado en modelos generativos públicos y operando sin intervención humana, nuestro sistema utiliza un validador Gemini ajustado a la tarea para calificar directamente la adherencia a las instrucciones y la estética, eliminando la necesidad de modelos de segmentación o anclaje. La inversión y el bootstrapping composicional amplían el conjunto de datos extraídos aproximadamente 2.2 veces, permitiendo datos de entrenamiento a gran escala y de alta fidelidad. Al automatizar los pasos de anotación más repetitivos, este enfoque permite un nuevo nivel de entrenamiento sin esfuerzo de etiquetado humano. Para democratizar la investigación en esta área intensiva en recursos, publicamos NHR-Edit: un conjunto de datos abierto de 358k tripletas de alta calidad. En la evaluación más grande entre conjuntos de datos, supera a todas las alternativas públicas. También publicamos Bagel-NHR-Edit, un modelo Bagel ajustado de código abierto, que alcanza métricas de vanguardia en nuestros experimentos.
El surgimiento de agentes impulsados por Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) ha revolucionado la inteligencia artificial al permitir soluciones a tareas complejas y abiertas mediante capacidades de búsqueda de información (IS, por sus siglas en inglés) basadas en la web. La escasez de datos de entrenamiento de alta calidad ha limitado el desarrollo de agentes IS. Los enfoques existentes suelen adoptar un paradigma impulsado por la información que primero recopila datos web y luego genera preguntas basadas en la recuperación. Sin embargo, esto puede llevar a inconsistencias entre la estructura de la información y la estructura de razonamiento, así como entre la pregunta y la respuesta. Para mitigar esto, proponemos un marco de síntesis de datos IS basado en formalización, llamado WebShaper, para construir un conjunto de datos. WebShaper formaliza sistemáticamente las tareas IS mediante la teoría de conjuntos. Central a esta formalización es el concepto de Proyecciones de Conocimiento (KP, por sus siglas en inglés), que permite un control preciso sobre la estructura de razonamiento a través de composiciones de operaciones KP. Durante la síntesis, comenzamos creando tareas semilla y luego utilizamos un proceso de expansión de múltiples pasos. En cada paso, un Expansor agente amplía la pregunta formal actual haciéndola más compleja con herramientas de recuperación y validación basadas en nuestra formalización. Entrenamos nuestro modelo en el conjunto de datos sintetizado. Los resultados de los experimentos demuestran que WebShaper alcanza un rendimiento de vanguardia entre los agentes IS de código abierto en los benchmarks GAIA y WebWalkerQA.
Informamos sobre nuestro reciente progreso hacia la construcción de políticas robóticas generalistas, con el desarrollo de GR-3. GR-3 es un modelo a gran escala de visión-lenguaje-acción (VLA). Demuestra capacidades excepcionales para generalizar en objetos, entornos e instrucciones novedosas que involucran conceptos abstractos. Además, puede ajustarse eficientemente con un mínimo de datos de trayectorias humanas, permitiendo una adaptación rápida y rentable a nuevos entornos. GR-3 también destaca en la ejecución de tareas de largo alcance y destreza, incluyendo aquellas que requieren manipulación bimanual y movimiento móvil, mostrando un rendimiento robusto y confiable. Estas capacidades se logran mediante una receta de entrenamiento multifacética que incluye co-entrenamiento con datos de visión-lenguaje a escala web, ajuste fino eficiente a partir de datos de trayectorias humanas recolectados mediante dispositivos de realidad virtual, y aprendizaje por imitación efectivo con datos de trayectorias robóticas. Además, presentamos ByteMini, un robot móvil bimanual versátil diseñado con una flexibilidad y fiabilidad excepcionales, capaz de realizar una amplia gama de tareas cuando se integra con GR-3. A través de extensos experimentos en el mundo real, demostramos que GR-3 supera al método de referencia más avanzado, pi_0, en una amplia variedad de tareas desafiantes. Esperamos que GR-3 pueda servir como un paso hacia la construcción de robots generalistas capaces de asistir a los humanos en la vida diaria.
La Segmentación de Objetos en Video (VOS, por sus siglas en inglés) es una tarea fundamental en visión por computadora, que requiere que los modelos rastreen y segmenten objetos objetivo a lo largo de los fotogramas de un video. A pesar de los avances notables con esfuerzos recientes, las técnicas actuales aún están por detrás de las capacidades humanas para manejar variaciones visuales drásticas, oclusiones y cambios complejos en la escena. Esta limitación surge de su dependencia en la coincidencia de apariencias, descuidando la comprensión conceptual de los objetos, similar a la humana, que permite una identificación robusta a través de dinámicas temporales. Motivados por esta brecha, proponemos Segment Concept (SeC), un marco de segmentación impulsado por conceptos que cambia de la coincidencia de características convencional a la construcción y utilización progresiva de representaciones de alto nivel centradas en objetos. SeC emplea Modelos Grandes de Visión y Lenguaje (LVLMs, por sus siglas en inglés) para integrar pistas visuales a través de diversos fotogramas, construyendo prioris conceptuales robustos. Durante la inferencia, SeC forma una representación semántica integral del objetivo basada en fotogramas procesados, logrando una segmentación robusta de los fotogramas siguientes. Además, SeC equilibra de manera adaptativa el razonamiento semántico basado en LVLM con una coincidencia de características mejorada, ajustando dinámicamente los esfuerzos computacionales según la complejidad de la escena. Para evaluar rigurosamente los métodos de VOS en escenarios que exigen un razonamiento conceptual de alto nivel y una comprensión semántica robusta, presentamos el benchmark de Segmentación de Objetos en Video en Escenarios Complejos Semánticos (SeCVOS). SeCVOS comprende 160 videos anotados manualmente de múltiples escenarios diseñados para desafiar a los modelos con variaciones sustanciales de apariencia y transformaciones dinámicas de la escena. En particular, SeC logra una mejora de 11.8 puntos sobre SAM 2.1 en SeCVOS, estableciendo un nuevo estado del arte en la segmentación de objetos en video consciente de conceptos.
Los recientes avances en representaciones neuronales 3D y modelos de edición a nivel de instancia han permitido la creación eficiente de contenido 3D de alta calidad. Sin embargo, lograr ediciones locales precisas en 3D sigue siendo un desafío, especialmente para el método de Gaussian Splatting, debido a segmentaciones inconsistentes de partes 2D en múltiples vistas y a la naturaleza inherentemente ambigua de la función de pérdida de Score Distillation Sampling (SDS). Para abordar estas limitaciones, proponemos RoMaP, un novedoso marco de edición local de Gaussianos 3D que permite modificaciones precisas y drásticas a nivel de partes. En primer lugar, introducimos un módulo robusto de generación de máscaras 3D con nuestra técnica de Predicción de Etiquetas Conscientes de la Geometría 3D (3D-GALP), que utiliza coeficientes de armónicos esféricos (SH) para modelar variaciones dependientes de la vista en las etiquetas y la propiedad de etiquetas suaves, obteniendo segmentaciones de partes precisas y consistentes en todas las vistas. En segundo lugar, proponemos una función de pérdida SDS regularizada que combina la pérdida SDS estándar con regularizadores adicionales. En particular, se introduce una pérdida de anclaje L1 mediante nuestro método de edición de Mezcla Latente Programada y Partes (SLaMP), que genera imágenes 2D editadas de alta calidad y limita las modificaciones únicamente a la región objetivo mientras preserva la coherencia contextual. Regularizadores adicionales, como la eliminación del prior Gaussiano, mejoran aún más la flexibilidad al permitir cambios más allá del contexto existente, y el enmascaramiento robusto en 3D evita ediciones no deseadas. Los resultados experimentales demuestran que nuestro RoMaP logra un estado del arte en edición local 3D tanto en escenas como en objetos Gaussianos reconstruidos y generados, cualitativa y cuantitativamente, haciendo posible una edición de Gaussianos 3D más robusta y flexible a nivel de partes. El código está disponible en https://janeyeon.github.io/romap.
Presentamos Being-H0, un modelo diestro de Visión-Lenguaje-Acción (VLA) entrenado en videos humanos a gran escala. Los VLA existentes enfrentan dificultades con tareas de manipulación complejas que requieren alta destreza y generalizan pobremente a escenarios y tareas novedosas, principalmente debido a su dependencia de datos sintéticos con brechas significativas entre simulación y realidad o demostraciones teleoperadas que carecen de escala y diversidad. Para abordar este cuello de botella en los datos, proponemos aprovechar las manos humanas como un manipulador fundamental, capitalizando la rica destreza y escalabilidad presentes en los datos web. Nuestro enfoque se centra en el ajuste físico de instrucciones, un paradigma de entrenamiento novedoso que combina el preentrenamiento de VLA a gran escala a partir de videos humanos, la alineación del espacio físico para el razonamiento en 3D y la adaptación posterior al entrenamiento para tareas robóticas. Además, introducimos un método de tokenización de movimiento a nivel de partes que logra una precisión de reconstrucción a nivel milimétrico para modelar trayectorias precisas de las manos en el aprendizaje de acciones. Para respaldar nuestro paradigma propuesto, desarrollamos además una pipeline integral de curación de datos que integra fuentes heterogéneas —incluyendo captura de movimiento, realidad virtual y videos solo en RGB— en un conjunto de datos a gran escala con millones de instancias instructivas basadas en movimiento. Demostramos empíricamente la excelencia de Being-H0 en la generación de movimientos de manos y el seguimiento de instrucciones, y también escala bien con el tamaño del modelo y los datos. Es importante destacar que observamos las ganancias esperadas de Being-H0 en la manipulación robótica del mundo real a medida que se aplica el ajuste físico de instrucciones. Más detalles están disponibles en https://beingbeyond.github.io/Being-H0.
Los Modelos de Lenguaje Hablado (SLMs, por sus siglas en inglés) están diseñados para recibir entradas de voz y producir respuestas habladas. Sin embargo, los SLMs actuales carecen de la capacidad de realizar un proceso de pensamiento interno y no verbalizado antes de responder. En contraste, los seres humanos suelen involucrarse en un razonamiento mental complejo de manera interna, lo que les permite comunicar ideas de forma clara y concisa. Por lo tanto, integrar un proceso de pensamiento no verbalizado en los SLMs es altamente deseable. Si bien generar de manera ingenua una cadena completa de razonamiento (CoT, por sus siglas en inglés) antes de comenzar a hablar puede permitir el pensamiento en los SLMs, esto introduce una latencia adicional en la respuesta hablada, ya que el razonamiento CoT puede ser arbitrariamente largo. Para resolver este problema, proponemos Stitch, un método novedoso de generación que alterna entre la generación de fragmentos de razonamiento no verbalizado y fragmentos de respuesta hablada. Dado que la duración del audio de un fragmento de respuesta hablada es mucho mayor que el tiempo necesario para generar los tokens en un fragmento de respuesta hablada, utilizamos el tiempo libre restante para generar los tokens de razonamiento no verbalizado. Cuando un fragmento de audio se reproduce para el usuario, el modelo continúa generando el siguiente fragmento de razonamiento no verbalizado, logrando así pensar y hablar simultáneamente. Notablemente, Stitch iguala la latencia de los modelos de referencia que, por diseño, no pueden generar CoT no verbalizado, mientras supera a esos modelos de referencia en un 15% en conjuntos de datos de razonamiento matemático; Stitch también funciona igual de bien en conjuntos de datos no relacionados con el razonamiento en comparación con esos modelos de referencia. Algunas animaciones y demostraciones están disponibles en la página del proyecto: https://d223302.github.io/STITCH.
Construimos tareas de evaluación en las que extender la longitud del razonamiento de los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) deteriora el rendimiento, exhibiendo una relación de escala inversa entre el cómputo en tiempo de prueba y la precisión. Nuestras tareas de evaluación abarcan cuatro categorías: tareas simples de conteo con distractores, tareas de regresión con características espurias, tareas de deducción con seguimiento de restricciones y riesgos avanzados de IA. Identificamos cinco modos de fallo distintos cuando los modelos razonan durante más tiempo: 1) los modelos Claude se distraen cada vez más con información irrelevante; 2) los modelos OpenAI o-series resisten los distractores pero se sobreajustan a los encuadres del problema; 3) los modelos cambian de prioridades razonables a correlaciones espurias; 4) todos los modelos muestran dificultades para mantener el enfoque en tareas deductivas complejas; y 5) el razonamiento extendido puede amplificar comportamientos preocupantes, con Claude Sonnet 4 mostrando un aumento en expresiones de autopreservación. Estos hallazgos sugieren que, aunque el escalado del cómputo en tiempo de prueba sigue siendo prometedor para mejorar las capacidades de los modelos, puede reforzar inadvertidamente patrones de razonamiento problemáticos. Nuestros resultados demuestran la importancia de evaluar los modelos en diversas longitudes de razonamiento para identificar y abordar estos modos de fallo en los LRMs.
El splatting con Gaussianas 3D (3DGS) ha demostrado su capacidad expresiva detallada y su velocidad de renderizado altamente eficiente en la tarea de síntesis de nuevas vistas (NVS). Sin embargo, su aplicación al renderizado inverso aún enfrenta varios desafíos, ya que la naturaleza discreta de las primitivas Gaussianas dificulta la aplicación de restricciones geométricas. Trabajos recientes introducen el campo de distancia con signo (SDF) como una representación continua adicional para regularizar la geometría definida por las primitivas Gaussianas. Esto mejora la calidad de la descomposición, pero a costa de aumentar el uso de memoria y complicar el entrenamiento. A diferencia de estos trabajos, nosotros introducimos un SDF discretizado para representar el SDF continuo de manera discreta, codificándolo dentro de cada Gaussiana mediante un valor muestreado. Este enfoque nos permite vincular el SDF con la opacidad de la Gaussiana a través de una transformación de SDF a opacidad, lo que posibilita renderizar el SDF mediante splatting y evita el costo computacional del ray marching. El desafío principal es regularizar las muestras discretas para que sean consistentes con el SDF subyacente, ya que la representación discreta dificulta la aplicación de restricciones basadas en gradientes (por ejemplo, la pérdida Eikonal). Para ello, proyectamos las Gaussianas sobre el conjunto de nivel cero del SDF y forzamos la alineación con la superficie obtenida del splatting, mediante una pérdida de consistencia basada en proyección. Gracias al SDF discretizado, nuestro método logra una mayor calidad de reluminación, sin requerir memoria adicional más allá de la usada por GS y evitando optimizaciones complejas diseñadas manualmente. Los experimentos revelan que nuestro método supera a los métodos existentes de renderizado inverso basados en Gaussianas. Nuestro código está disponible en https://github.com/NK-CS-ZZL/DiscretizedSDF.
La inteligencia humana requiere corrección y robustez, siendo la primera fundamental para la segunda. En la comprensión de videos, la corrección garantiza la interpretación precisa del contenido visual, mientras que la robustez mantiene un rendimiento consistente en condiciones desafiantes. A pesar de los avances en los modelos de lenguaje de gran escala para video (video LLMs), los benchmarks existentes no reflejan adecuadamente la brecha entre estos modelos y la inteligencia humana en cuanto a mantener la corrección y la robustez en la interpretación de videos. Presentamos la Prueba de Pensamiento en Video (Video-TT), diseñada para evaluar si los video LLMs pueden interpretar videos del mundo real con la misma eficacia que los humanos. Video-TT refleja brechas genuinas en la comprensión de narrativas visuales complejas y evalúa la robustez frente a preguntas adversarias naturales. Video-TT consta de 1,000 videos de YouTube Shorts, cada uno con una pregunta abierta y cuatro preguntas adversarias que exploran la complejidad visual y narrativa. Nuestra evaluación muestra una brecha significativa entre el rendimiento de los video LLMs y el de los humanos.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) se ha convertido en un método efectivo de posentrenamiento para mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs), principalmente moldeando comportamientos de orden superior como la reflexión y la planificación. Sin embargo, los algoritmos previos de RLVR suelen aplicar señales de entrenamiento uniformes a todos los tokens, sin considerar los diferentes roles de los tokens relacionados con conocimiento de baja entropía y los tokens relacionados con razonamiento de alta entropía. Algunos métodos recientes intentan separar estos tipos de tokens mediante enmascaramiento de gradientes o actualizaciones asíncronas, pero estos enfoques pueden romper las dependencias semánticas en la salida del modelo y dificultar el aprendizaje efectivo. En este trabajo, proponemos Archer, un enfoque de RLVR consciente de la entropía con restricciones de doble token y actualizaciones síncronas. Específicamente, nuestro método aplica una regularización KL más débil y umbrales de recorte más altos a los tokens de razonamiento para fomentar la exploración, mientras utiliza restricciones más fuertes en los tokens de conocimiento para mantener el conocimiento factual. Los resultados experimentales en varios puntos de referencia de razonamiento matemático y generación de código muestran que nuestro enfoque supera significativamente a los métodos previos de RLVR, alcanzando o superando el rendimiento de vanguardia entre modelos de tamaño comparable. El código está disponible en https://github.com/wizard-III/ArcherCodeR.
El rápido auge de los agentes inteligentes basados en Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) subraya la necesidad de marcos de evaluación robustos y escalables. Los métodos existentes dependen de benchmarks estáticos y de la recopilación de datos intensiva en mano de obra, lo que limita la evaluación práctica. Presentamos \oursystemname, un marco de código abierto basado en el Protocolo de Contexto de Modelo (MCP, por sus siglas en inglés) que automatiza la generación de tareas de extremo a extremo y la evaluación profunda de agentes LLM en diversos dominios. MCPEval estandariza métricas, se integra sin problemas con las herramientas nativas de los agentes y elimina el esfuerzo manual en la construcción de pipelines de evaluación. Los resultados empíricos en cinco dominios del mundo real demuestran su eficacia para revelar un rendimiento matizado y específico del dominio. Publicamos MCPEval en https://github.com/SalesforceAIResearch/MCPEval para promover una evaluación reproducible y estandarizada de agentes LLM.
Los modelos de generación de video han logrado avances notables en la creación de contenido de alta calidad y fotorrealista. Sin embargo, su capacidad para simular con precisión fenómenos físicos sigue siendo un desafío crítico y no resuelto. Este artículo presenta PhyWorldBench, un punto de referencia integral diseñado para evaluar modelos de generación de video en función de su adherencia a las leyes de la física. El punto de referencia abarca múltiples niveles de fenómenos físicos, desde principios fundamentales como el movimiento de objetos y la conservación de la energía hasta escenarios más complejos que involucran interacciones de cuerpos rígidos y movimientos humanos o animales. Además, introducimos una nueva categoría denominada "Anti-Física", donde las indicaciones violan intencionalmente las leyes físicas del mundo real, permitiendo evaluar si los modelos pueden seguir dichas instrucciones manteniendo la coherencia lógica. Además de una evaluación humana a gran escala, también diseñamos un método simple pero efectivo que podría utilizar modelos de lenguaje multimodal (MLLM) actuales para evaluar el realismo físico de manera sin precedentes. Evaluamos 12 modelos de última generación de generación de texto a video, incluyendo cinco modelos de código abierto y cinco modelos propietarios, con una comparación y análisis detallados. Identificamos desafíos clave que enfrentan los modelos para adherirse a las leyes físicas del mundo real. A través de pruebas sistemáticas de sus salidas en 1,050 indicaciones cuidadosamente seleccionadas, que abarcan escenarios fundamentales, compuestos y anti-físicos, identificamos desafíos clave que estos modelos enfrentan para adherirse a las leyes físicas del mundo real. Luego, examinamos rigurosamente su rendimiento en diversos fenómenos físicos con diferentes tipos de indicaciones, derivando recomendaciones específicas para elaborar indicaciones que mejoren la fidelidad a los principios físicos.
La percepción y reconstrucción de la geometría espacio-temporal 4D a partir de videos es una tarea fundamental pero desafiante en el campo de la visión por computadora. Para facilitar aplicaciones interactivas y en tiempo real, proponemos un transformador de geometría visual 4D en streaming que comparte una filosofía similar con los modelos de lenguaje autoregresivos de gran escala. Exploramos un diseño simple y eficiente, y empleamos una arquitectura de transformador causal para procesar la secuencia de entrada de manera en línea. Utilizamos atención causal temporal y almacenamos en caché las claves y valores históricos como memoria implícita para permitir una reconstrucción 4D a largo plazo eficiente en streaming. Este diseño puede manejar la reconstrucción 4D en tiempo real al integrar incrementalmente la información histórica mientras mantiene una alta consistencia espacial. Para un entrenamiento eficiente, proponemos destilar conocimiento del transformador de geometría visual bidireccional denso (VGGT) a nuestro modelo causal. Para la inferencia, nuestro modelo permite la migración de operadores de atención eficiente optimizados (por ejemplo, FlashAttention) desde el campo de los modelos de lenguaje de gran escala. Experimentos exhaustivos en varios puntos de referencia de percepción de geometría 4D demuestran que nuestro modelo aumenta la velocidad de inferencia en escenarios en línea mientras mantiene un rendimiento competitivo, allanando el camino para sistemas de visión 4D escalables e interactivos. El código está disponible en: https://github.com/wzzheng/StreamVGGT.
La resolución de problemas en múltiples turnos es crucial pero desafiante para los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) para reflexionar sobre su razonamiento y revisar a partir de retroalimentación. Los métodos existentes de Aprendizaje por Refuerzo (RL, por sus siglas en inglés) entrenan modelos de razonamiento a gran escala en un paradigma de un solo turno con recompensas verificables. Sin embargo, observamos que los modelos entrenados con los paradigmas de RL existentes a menudo pierden su capacidad para resolver problemas en múltiples turnos y luchan por revisar respuestas basadas en retroalimentación contextual, lo que lleva a respuestas repetitivas. Nos preguntamos: ¿pueden los LRMs aprender a reflexionar sobre sus respuestas en un contexto de múltiples turnos? En este trabajo, encontramos que entrenar modelos con RL de múltiples turnos utilizando únicamente retroalimentación unaria (por ejemplo, "Intentemos de nuevo") después de respuestas incorrectas puede mejorar tanto el rendimiento en un solo turno como el razonamiento en múltiples turnos. Introducimos la Retroalimentación Unaria como Observación (UFO, por sus siglas en inglés) para el aprendizaje por refuerzo, que utiliza retroalimentación unaria mínima pero común durante la resolución iterativa de problemas. Puede aplicarse fácilmente a configuraciones de entrenamiento de RL de un solo turno existentes. Los resultados experimentales muestran que el entrenamiento de RL con UFO mantiene el rendimiento en un solo turno y mejora la precisión del razonamiento en múltiples turnos hasta en un 14%, permitiendo que los modelos de lenguaje reaccionen mejor a la retroalimentación en la resolución de problemas en múltiples turnos. Para minimizar aún más el número de turnos necesarios para una respuesta correcta mientras se fomenta un razonamiento diverso cuando ocurren errores, diseñamos estructuras de recompensa que guían a los modelos a producir respuestas cuidadosas y deliberadas en cada turno. Código: https://github.com/lichengliu03/unary-feedback
A pesar de su papel fundamental, sigue sin estar claro qué propiedades podrían hacer que los tokenizadores visuales sean más efectivos para el modelado generativo. Observamos que los modelos generativos modernos comparten un objetivo de entrenamiento conceptualmente similar: reconstruir señales limpias a partir de entradas corrompidas, como ruido gaussiano o enmascaramiento, un proceso que denominamos desruido. Motivados por esta idea, proponemos alinear directamente los embeddings del tokenizador con el objetivo de desruido en la etapa posterior, fomentando que los embeddings latentes sean más fácilmente reconstruibles incluso cuando estén fuertemente corrompidos. Para lograrlo, presentamos el Tokenizador de Desruido Latente (l-DeTok), un tokenizador simple pero efectivo entrenado para reconstruir imágenes limpias a partir de embeddings latentes corrompidos por ruido interpolativo y enmascaramiento aleatorio. Experimentos exhaustivos en ImageNet 256x256 demuestran que nuestro tokenizador supera consistentemente a los tokenizadores estándar en seis modelos generativos representativos. Nuestros hallazgos destacan el desruido como un principio fundamental de diseño para el desarrollo de tokenizadores, y esperamos que pueda motivar nuevas perspectivas para el diseño futuro de tokenizadores.
Si bien el aprendizaje automático ha avanzado gracias a la paralelización masiva, identificamos un punto ciego crítico: algunos problemas son fundamentalmente secuenciales. Estos problemas "inherentemente seriales"—desde el razonamiento matemático hasta las simulaciones físicas y la toma de decisiones secuencial—requieren pasos computacionales dependientes que no pueden paralelizarse. Basándonos en la teoría de la complejidad, formalizamos esta distinción y demostramos que las arquitecturas actuales centradas en la paralelización enfrentan limitaciones fundamentales en tales tareas. Argumentamos que reconocer la naturaleza serial de la computación tiene implicaciones profundas en el aprendizaje automático, el diseño de modelos y el desarrollo de hardware. A medida que la IA aborda razonamientos cada vez más complejos, escalar deliberadamente la computación serial—no solo la computación paralela—es esencial para continuar avanzando.
Presentamos el Economista LLM, un marco novedoso que utiliza modelos basados en agentes para diseñar y evaluar políticas económicas en entornos estratégicos con toma de decisiones jerárquica. En el nivel inferior, agentes trabajadores con racionalidad limitada —instanciados como indicaciones condicionadas por perfiles muestreados de estadísticas de ingresos y demográficas calibradas con el censo de EE. UU.— eligen la oferta laboral para maximizar funciones de utilidad basadas en texto aprendidas en contexto. En el nivel superior, un agente planificador emplea aprendizaje por refuerzo en contexto para proponer esquemas de impuestos marginales lineales por tramos anclados a los tramos fiscales federales actuales de EE. UU. Esta construcción dota a los simulacros económicos de tres capacidades necesarias para la experimentación fiscal creíble: (i) optimización de utilidades heterogéneas, (ii) generación fundamentada de poblaciones grandes y demográficamente realistas, y (iii) diseño de mecanismos —el problema último de empuje— expresado completamente en lenguaje natural. Experimentos con poblaciones de hasta cien agentes interactuando muestran que el planificador converge cerca de equilibrios de Stackelberg que mejoran el bienestar social agregado en comparación con las soluciones de Saez, mientras que un procedimiento periódico de votación a nivel de perfil amplía estas ganancias bajo gobernanza descentralizada. Estos resultados demuestran que los agentes basados en modelos de lenguaje grande pueden modelar, simular y gobernar conjuntamente sistemas económicos complejos, proporcionando un banco de pruebas manejable para la evaluación de políticas a escala societal con el fin de ayudar a construir mejores civilizaciones.
Generar videos largos y consistentes es un desafío complejo: aunque los modelos generativos basados en difusión producen clips cortos visualmente impresionantes, extenderlos a duraciones más largas a menudo genera cuellos de botella de memoria e inconsistencias a largo plazo. En este artículo, proponemos TokensGen, un marco novedoso de dos etapas que aprovecha tokens condensados para abordar estos problemas. Nuestro método descompone la generación de videos largos en tres tareas principales: (1) control semántico intra-clip, (2) control de consistencia a largo plazo y (3) transición suave entre clips. Primero, entrenamos To2V (Token-to-Video), un modelo de difusión de videos cortos guiado por texto y tokens de video, junto con un Video Tokenizer que condensa clips cortos en tokens semánticamente ricos. Segundo, introducimos T2To (Text-to-Token), un transformador de difusión de tokens de video que genera todos los tokens de una vez, asegurando consistencia global entre los clips. Finalmente, durante la inferencia, una estrategia adaptativa de FIFO-Difusión conecta de manera fluida los clips adyacentes, reduciendo artefactos en los límites y mejorando las transiciones suaves. Los resultados experimentales demuestran que nuestro enfoque mejora significativamente la coherencia temporal y de contenido a largo plazo sin incurrir en un costo computacional prohibitivo. Al aprovechar tokens condensados y modelos preentrenados de videos cortos, nuestro método ofrece una solución escalable y modular para la generación de videos largos, abriendo nuevas posibilidades para la narrativa, la producción cinematográfica y las simulaciones inmersivas. Consulte nuestra página del proyecto en https://vicky0522.github.io/tokensgen-webpage/.
El preentrenamiento continuo en datos específicos de tareas a pequeña escala es un método efectivo para mejorar los modelos de lenguaje grandes en nuevos campos objetivo, aunque conlleva el riesgo de olvido catastrófico de sus capacidades originales. Una solución común es re-ponderar las mezclas de datos de entrenamiento provenientes de los campos fuente y objetivo en un espacio de dominio para lograr un rendimiento equilibrado. Las estrategias previas de re-ponderación de dominios dependen de designaciones manuales basadas en ciertas heurísticas derivadas de la intuición humana o resultados empíricos. En este trabajo, demostramos que heurísticas más generales pueden ser parametrizadas al proponer el Agente de Mezcla de Datos, el primer marco basado en modelos y de extremo a extremo que aprende a re-ponderar dominios. El agente aprende heurísticas generalizables mediante aprendizaje por refuerzo en grandes cantidades de trayectorias de mezcla de datos con retroalimentación correspondiente de un entorno de evaluación. Los experimentos en preentrenamiento continuo para razonamiento matemático muestran que el Agente de Mezcla de Datos supera a líneas base sólidas al lograr un rendimiento equilibrado en los puntos de referencia de los campos fuente y objetivo. Además, generaliza bien en campos fuente no vistos, modelos objetivo y espacios de dominio sin necesidad de reentrenamiento. La aplicación directa en el campo de generación de código también indica su adaptabilidad a través de dominios objetivo. Un análisis adicional muestra que las heurísticas del agente están bien alineadas con las intuiciones humanas y su eficiencia para alcanzar un rendimiento superior del modelo con menos datos del campo fuente.
Evaluar las capacidades de descubrimiento científico de los agentes basados en modelos de lenguaje grandes (LLM), particularmente cómo manejan la complejidad ambiental variable y utilizan el conocimiento previo, requiere puntos de referencia especializados que actualmente faltan en el panorama. Para abordar esta brecha, presentamos PhysGym, una suite de referencia novedosa y una plataforma de simulación diseñada para evaluar rigurosamente el razonamiento científico basado en LLM en entornos interactivos de física. La principal contribución de PhysGym radica en su sofisticado control sobre el nivel de conocimiento previo proporcionado al agente. Esto permite a los investigadores analizar el desempeño del agente a lo largo de ejes que incluyen la complejidad del problema y los niveles de conocimiento previo. El punto de referencia comprende una serie de simulaciones interactivas, donde los agentes deben sondear activamente los entornos, recopilar datos de manera secuencial bajo restricciones y formular hipótesis sobre las leyes físicas subyacentes. PhysGym proporciona protocolos y métricas estandarizados para evaluar la precisión de las hipótesis y la fidelidad del modelo. Demostramos la utilidad del punto de referencia presentando resultados de LLM de referencia, mostrando su capacidad para diferenciar las capacidades según los conocimientos previos y la complejidad de la tarea.
La localización entre vistas, la tarea de estimar la pose de 3 grados de libertad (3-DoF) de una cámara al alinear imágenes a nivel del suelo con imágenes satelitales, es crucial para aplicaciones a gran escala en exteriores, como la navegación autónoma y la realidad aumentada. Los métodos existentes suelen basarse en el aprendizaje supervisado completo, que requiere anotaciones de pose de verdad de terreno costosas. En este trabajo, proponemos GeoDistill, un marco de autodistilación débilmente supervisado guiado por geometría que utiliza el aprendizaje maestro-estudiante con enmascaramiento basado en el campo de visión (FoV) para mejorar el aprendizaje de características locales para una localización entre vistas robusta. En GeoDistill, el modelo maestro localiza una imagen panorámica, mientras que el modelo estudiante predice ubicaciones a partir de una contraparte de FoV limitado creada mediante enmascaramiento basado en FoV. Al alinear las predicciones del estudiante con las del maestro, el estudiante se enfoca en características clave como las líneas de carril e ignora regiones sin textura, como las carreteras. Esto resulta en predicciones más precisas y una reducción de la incertidumbre, independientemente de si las imágenes de consulta son panorámicas o de FoV limitado. Nuestros experimentos muestran que GeoDistill mejora significativamente el rendimiento de localización en diferentes marcos de trabajo. Además, introducimos una novedosa red de estimación de orientación que predice la orientación relativa sin requerir una verdad de terreno precisa de la posición plana. GeoDistill ofrece una solución escalable y eficiente para los desafíos de localización entre vistas en el mundo real. El código y el modelo se pueden encontrar en https://github.com/tongshw/GeoDistill.
La clasificación precisa de imágenes de tomografía computarizada (TC) es fundamental para el diagnóstico y la planificación del tratamiento, pero los métodos existentes suelen enfrentar dificultades debido a la naturaleza sutil y espacialmente diversa de las características patológicas. Los enfoques actuales generalmente procesan las imágenes de manera uniforme, lo que limita su capacidad para detectar anomalías localizadas que requieren un análisis focalizado. Presentamos UGPL, un marco de aprendizaje progresivo guiado por incertidumbre que realiza un análisis de global a local, identificando primero regiones de ambigüedad diagnóstica y luego examinando detalladamente estas áreas críticas. Nuestro enfoque emplea aprendizaje profundo evidencial para cuantificar la incertidumbre predictiva, guiando la extracción de parches informativos mediante un mecanismo de supresión no máxima que mantiene la diversidad espacial. Esta estrategia de refinamiento progresivo, combinada con un mecanismo de fusión adaptativa, permite a UGPL integrar tanto la información contextual como los detalles de grano fino. Los experimentos realizados en tres conjuntos de datos de TC demuestran que UGPL supera consistentemente a los métodos más avanzados, logrando mejoras del 3.29%, 2.46% y 8.08% en precisión para la detección de anomalías renales, cáncer de pulmón y COVID-19, respectivamente. Nuestro análisis muestra que el componente guiado por incertidumbre proporciona beneficios sustanciales, con un aumento dramático en el rendimiento cuando se implementa la canalización completa de aprendizaje progresivo. Nuestro código está disponible en: https://github.com/shravan-18/UGPL.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en tareas de programación, pero ¿pueden generar código similar al de estudiantes reales, es decir, imperfecto, iterativo y estilísticamente diverso? Presentamos ParaStudent, un estudio sistemático de la generación de código "similar al de estudiantes" basado en LLMs en el contexto de un curso introductorio de programación. Utilizando un conjunto de datos de entregas de estudiantes con marcas de tiempo a lo largo de varios semestres, diseñamos experimentos de baja y alta resolución para modelar el progreso de los estudiantes y evaluar los resultados del código en dimensiones semánticas, funcionales y estilísticas. Nuestros resultados muestran que el ajuste fino mejora significativamente la alineación con las trayectorias reales de los estudiantes y captura de manera más fiel los patrones de errores, las mejoras incrementales y las variaciones estilísticas. Este estudio demuestra que modelar código estudiantil realista requiere capturar dinámicas de aprendizaje mediante generación consciente del contexto, modelado temporal y evaluación multidimensional. El código para los experimentos y la evaluación está disponible en https://github.com/mmiroyan/ParaStudent.