Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala destacan en la generación de código a nivel de funciones y archivos, pero la generación de repositorios completos desde cero sigue siendo un desafío fundamental. Este proceso requiere una planificación coherente y confiable en las etapas de propuesta e implementación, mientras que el lenguaje natural, debido a su ambigüedad y verbosidad, no es adecuado para representar fielmente estructuras de software complejas. Para abordar esto, presentamos el Grafo de Planificación de Repositorios (RPG, por sus siglas en inglés), una representación persistente que unifica la planificación a nivel de propuesta e implementación al codificar capacidades, estructuras de archivos, flujos de datos y funciones en un solo grafo. RPG reemplaza el lenguaje natural ambiguo con un plano explícito, permitiendo una planificación a largo plazo y la generación escalable de repositorios. Basándonos en RPG, desarrollamos ZeroRepo, un marco impulsado por grafos para la generación de repositorios desde cero. Opera en tres etapas: planificación a nivel de propuesta y refinamiento a nivel de implementación para construir el grafo, seguido de la generación de código guiada por el grafo con validación de pruebas. Para evaluar este enfoque, construimos RepoCraft, un punto de referencia con seis proyectos del mundo real que incluyen 1,052 tareas. En RepoCraft, ZeroRepo produce repositorios con un promedio de casi 36K líneas de código (LOC), aproximadamente 3.9 veces más que el mejor modelo base (Claude Code) y alrededor de 64 veces más que otros modelos base. Alcanza un 81.5% de cobertura funcional y una tasa de aprobación del 69.7%, superando a Claude Code en 27.3 y 35.8 puntos porcentuales, respectivamente. Un análisis adicional muestra que RPG modela dependencias complejas, permite una planificación progresivamente más sofisticada mediante un escalado casi lineal y mejora la comprensión de los repositorios por parte de los modelos de lenguaje, acelerando así la localización de agentes.
Los modelos de lenguaje multimodal unificados (LLM, por sus siglas en inglés) que pueden comprender y generar contenido visual tienen un potencial inmenso. Sin embargo, los modelos de código abierto existentes a menudo presentan un compromiso en el rendimiento entre estas capacidades. Presentamos Manzano, un marco unificado simple y escalable que reduce sustancialmente esta tensión al combinar un tokenizador híbrido de imágenes con una receta de entrenamiento bien diseñada. Un único codificador visual compartido alimenta dos adaptadores ligeros que producen incrustaciones continuas para la comprensión de imágenes a texto y tokens discretos para la generación de texto a imágenes dentro de un espacio semántico común. Un LLM autorregresivo unificado predice semántica de alto nivel en forma de texto y tokens de imágenes, con un decodificador de difusión auxiliar que posteriormente traduce los tokens de imágenes en píxeles. La arquitectura, junto con una receta de entrenamiento unificada sobre datos de comprensión y generación, permite un aprendizaje conjunto escalable de ambas capacidades. Manzano logra resultados de vanguardia entre los modelos unificados y es competitivo con modelos especializados, particularmente en evaluaciones ricas en texto. Nuestros estudios muestran conflictos mínimos entre tareas y ganancias consistentes al escalar el tamaño del modelo, validando nuestra elección de diseño de un tokenizador híbrido.
El modelado generativo, el aprendizaje de representaciones y la clasificación son tres problemas fundamentales en el aprendizaje automático (ML, por sus siglas en inglés), sin embargo, las soluciones de vanguardia (SoTA, por sus siglas en inglés) para estos problemas siguen siendo en gran medida independientes. En este artículo, nos preguntamos: ¿Puede un principio unificado abordar los tres? Tal unificación podría simplificar las pipelines de ML y fomentar una mayor sinergia entre tareas. Introducimos la Red de Zonificación Latente (LZN, por sus siglas en inglés) como un paso hacia este objetivo. En esencia, LZN crea un espacio latente gaussiano compartido que codifica información para todas las tareas. Cada tipo de dato (por ejemplo, imágenes, texto, etiquetas) está equipado con un codificador que mapea muestras a zonas latentes disjuntas y un decodificador que mapea los latentes de vuelta a los datos. Las tareas de ML se expresan como composiciones de estos codificadores y decodificadores: por ejemplo, la generación de imágenes condicionadas por etiquetas utiliza un codificador de etiquetas y un decodificador de imágenes; la incrustación de imágenes utiliza un codificador de imágenes; la clasificación utiliza un codificador de imágenes y un decodificador de etiquetas. Demostramos el potencial de LZN en tres escenarios de creciente complejidad: (1) LZN puede mejorar modelos existentes (generación de imágenes): cuando se combina con el modelo de Flujo Rectificado SoTA, LZN mejora el FID en CIFAR10 de 2.76 a 2.59 sin modificar el objetivo de entrenamiento. (2) LZN puede resolver tareas de manera independiente (aprendizaje de representaciones): LZN puede implementar aprendizaje de representaciones no supervisado sin funciones de pérdida auxiliares, superando los métodos seminales MoCo y SimCLR en un 9.3% y 0.2%, respectivamente, en la clasificación lineal descendente en ImageNet. (3) LZN puede resolver múltiples tareas simultáneamente (generación y clasificación conjuntas): con codificadores y decodificadores de imágenes y etiquetas, LZN realiza ambas tareas de manera conjunta por diseño, mejorando el FID y alcanzando la precisión de clasificación SoTA en CIFAR10. El código y los modelos entrenados están disponibles en https://github.com/microsoft/latent-zoning-networks. El sitio web del proyecto se encuentra en https://zinanlin.me/blogs/latent_zoning_networks.html.
La creación de modelos 3D de alta fidelidad de entornos interiores es fundamental para aplicaciones en diseño, realidad virtual y robótica. Sin embargo, el modelado 3D manual sigue siendo laborioso y consume mucho tiempo. Si bien los avances recientes en IA generativa han permitido la síntesis automatizada de escenas, los métodos existentes a menudo enfrentan desafíos para equilibrar la calidad visual, la diversidad, la consistencia semántica y el control del usuario. Un cuello de botella importante es la falta de un conjunto de datos a gran escala y de alta calidad adaptado a esta tarea. Para abordar esta brecha, presentamos un conjunto de datos sintético integral, que incluye 12,328 escenas estructuradas y anotadas con 57,440 habitaciones y 4.7 millones de renderizaciones fotorrealistas en 2D. Aprovechando este conjunto de datos, presentamos SpatialGen, un novedoso modelo de difusión multimodal y multivista que genera escenas interiores 3D realistas y semánticamente consistentes. Dado un diseño 3D y una imagen de referencia (derivada de un texto descriptivo), nuestro modelo sintetiza la apariencia (imagen en color), la geometría (mapa de coordenadas de la escena) y la semántica (mapa de segmentación semántica) desde puntos de vista arbitrarios, manteniendo la consistencia espacial entre las modalidades. SpatialGen genera consistentemente resultados superiores a los métodos anteriores en nuestros experimentos. Estamos liberando nuestros datos y modelos como código abierto para empoderar a la comunidad y avanzar en el campo de la comprensión y generación de escenas interiores.
El rápido avance de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha convertido la alineación de estos con las preferencias humanas en un desafío crítico. Los Modelos de Recompensa (RMs, por sus siglas en inglés) son una tecnología fundamental para lograr este objetivo, pero actualmente falta una guía sistemática para construir Modelos de Recompensa Multimodales (MRMs, por sus siglas en inglés) de vanguardia tanto en el ámbito académico como en la industria. A través de un exhaustivo análisis experimental, este artículo tiene como objetivo proporcionar una "receta" clara para construir MRMs de alto rendimiento. Investigamos sistemáticamente cada componente crucial en el proceso de desarrollo de MRMs, incluyendo los paradigmas de modelado de recompensas (por ejemplo, Naive-RM, Critic-based RM y Generative RM), la arquitectura de la cabeza de recompensa, las estrategias de entrenamiento, la curación de datos (abarcando más de diez conjuntos de datos de preferencias multimodales y solo de texto), el modelo base y la escala del modelo, así como los métodos de ensamblaje. Basándonos en estas conclusiones experimentales, presentamos BaseReward, una línea base potente y eficiente para el modelado de recompensas multimodales. BaseReward adopta una arquitectura simple pero efectiva, construida sobre un modelo base {Qwen2.5-VL}, que incluye una cabeza de recompensa optimizada de dos capas y se entrena con una mezcla cuidadosamente seleccionada de datos de preferencias multimodales y solo de texto de alta calidad. Nuestros resultados muestran que BaseReward establece un nuevo estado del arte (SOTA, por sus siglas en inglés) en benchmarks importantes como MM-RLHF-Reward Bench, VL-Reward Bench y Multimodal Reward Bench, superando a modelos anteriores. Además, para validar su utilidad práctica más allá de los benchmarks estáticos, integramos BaseReward en un pipeline de aprendizaje por refuerzo del mundo real, mejorando con éxito el rendimiento de un MLLM en diversas tareas de percepción, razonamiento y conversación. Este trabajo no solo ofrece un MRM de primer nivel, sino que, más importante aún, proporciona a la comunidad una guía clara y respaldada empíricamente para desarrollar modelos de recompensa robustos para la próxima generación de MLLMs.
El aprendizaje por refuerzo (RL) robótico en el mundo real con modelos de visión-lenguaje-acción (VLA) se ve limitado por recompensas escasas y diseñadas manualmente, así como por una exploración ineficiente. Presentamos VLAC, un modelo general de recompensa basado en InternVL y entrenado en grandes conjuntos de datos heterogéneos. Dadas observaciones pareadas y un objetivo en lenguaje natural, genera señales densas de progreso delta y de finalización, eliminando la ingeniería de recompensas específica para cada tarea, y permite la transferencia en contexto de una sola vez a tareas y entornos no vistos. VLAC se entrena en conjuntos de datos de visión-lenguaje para fortalecer las capacidades de percepción, diálogo y razonamiento, junto con datos de trayectorias de robots y humanos que fundamentan la generación de acciones y la estimación del progreso, y se refuerza adicionalmente para rechazar indicaciones irrelevantes y detectar regresiones o estancamientos mediante la construcción de un gran número de muestras negativas y semánticamente desajustadas. Con control de indicaciones, un único modelo VLAC alterna la generación de tokens de recompensa y acción, unificando crítico y política. Implementado dentro de un bucle RL asíncrono en el mundo real, superponemos un protocolo gradual de humano-en-el-bucle (reproducción de demostraciones fuera de línea, retorno y exploración, exploración guiada por humanos) que acelera la exploración y estabiliza el aprendizaje temprano. En cuatro tareas distintas de manipulación en el mundo real, VLAC eleva las tasas de éxito de aproximadamente 30% a alrededor de 90% dentro de 200 episodios de interacción en el mundo real; la incorporación de intervenciones de humano-en-el-bucle produce una mejora adicional del 50% en la eficiencia de muestreo y alcanza hasta un 100% de éxito final.
Presentamos Lynx, un modelo de alta fidelidad para la síntesis de videos personalizados a partir de una única imagen de entrada. Construido sobre un modelo base de Transformador de Difusión (DiT) de código abierto, Lynx introduce dos adaptadores ligeros para garantizar la fidelidad de la identidad. El ID-adaptador emplea un Perceiver Resampler para convertir las incrustaciones faciales derivadas de ArcFace en tokens de identidad compactos para el condicionamiento, mientras que el Ref-adaptador integra características densas de VAE de una ruta de referencia congelada, inyectando detalles de grano fino en todas las capas del transformador mediante atención cruzada. Estos módulos permiten colectivamente una preservación robusta de la identidad mientras mantienen la coherencia temporal y el realismo visual. A través de la evaluación en un conjunto de referencia curado de 40 sujetos y 20 indicaciones imparciales, que generaron 800 casos de prueba, Lynx ha demostrado una superior semejanza facial, un seguimiento competitivo de las indicaciones y una fuerte calidad de video, avanzando así el estado del arte en la generación de videos personalizados.
En el campo de la automatización de la interacción humano-GUI impulsada por IA, si bien los avances rápidos en modelos de lenguaje multimodal y técnicas de ajuste fino por refuerzo han logrado un progreso notable, persiste un desafío fundamental: su lógica de interacción se desvía significativamente de los patrones naturales de comunicación humano-GUI. Para abordar esta brecha, proponemos "Blink-Think-Link" (BTL), un marco inspirado en el cerebro para la interacción humano-GUI que imita el proceso cognitivo humano entre los usuarios y las interfaces gráficas. El sistema descompone las interacciones en tres fases biológicamente plausibles: (1) Blink - detección rápida y atención a áreas relevantes de la pantalla, análogo a los movimientos sacádicos del ojo; (2) Think - razonamiento y toma de decisiones de alto nivel, reflejando la planificación cognitiva; y (3) Link - generación de comandos ejecutables para un control motor preciso, emulando los mecanismos de selección de acciones humanos. Además, introducimos dos innovaciones técnicas clave para el marco BTL: (1) Generación de Datos Blink - una canalización de anotación automatizada específicamente optimizada para datos de parpadeo, y (2) Recompensa BTL - el primer mecanismo de recompensa basado en reglas que permite el aprendizaje por refuerzo impulsado tanto por el proceso como por el resultado. Sobre la base de este marco, desarrollamos un modelo de agente GUI llamado BTL-UI, que demuestra un rendimiento constante de vanguardia tanto en tareas de comprensión estática de GUI como en tareas de interacción dinámica en evaluaciones integrales. Estos resultados proporcionan una validación empírica concluyente de la eficacia del marco en el desarrollo de Agentes GUI avanzados.
Aunque COLMAP ha permanecido durante mucho tiempo como el método predominante para la optimización de parámetros de cámara en escenas estáticas, está limitado por su tiempo de ejecución prolongado y su dependencia de máscaras de movimiento de verdad de campo (GT) para su aplicación en escenas dinámicas. Muchos esfuerzos han intentado mejorarlo incorporando más previos como supervisión, como la longitud focal GT, máscaras de movimiento, nubes de puntos 3D, poses de cámara y profundidad métrica, que, sin embargo, generalmente no están disponibles en videos RGB capturados de manera casual. En este artículo, proponemos un método novedoso para una optimización más precisa y eficiente de los parámetros de cámara en escenas dinámicas supervisado únicamente por un solo video RGB. Nuestro método consta de tres componentes clave: (1) Filtros de seguimiento por parches, para establecer relaciones robustas y máximamente dispersas tipo bisagra a lo largo del video RGB. (2) Optimización conjunta consciente de valores atípicos, para la optimización eficiente de los parámetros de cámara mediante la ponderación adaptativa de valores atípicos en movimiento, sin depender de previos de movimiento. (3) Una estrategia de optimización en dos etapas, para mejorar la estabilidad y la velocidad de optimización mediante un equilibrio entre los límites de Softplus y los mínimos convexos en las pérdidas. Evaluamos visual y numéricamente nuestras estimaciones de cámara. Para validar aún más la precisión, alimentamos las estimaciones de cámara en un método de reconstrucción 4D y evaluamos las escenas 3D resultantes, así como los mapas RGB y de profundidad renderizados en 2D. Realizamos experimentos en 4 conjuntos de datos del mundo real (NeRF-DS, DAVIS, iPhone y TUM-dynamics) y 1 conjunto de datos sintético (MPI-Sintel), demostrando que nuestro método estima los parámetros de cámara de manera más eficiente y precisa con un solo video RGB como única supervisión.
La síntesis de voz guiada por instrucciones (ITTS, por sus siglas en inglés) permite a los usuarios controlar la generación de voz mediante indicaciones en lenguaje natural, ofreciendo una interfaz más intuitiva que los sistemas tradicionales de texto a voz (TTS). Sin embargo, la alineación entre las instrucciones de estilo del usuario y la percepción del oyente sigue siendo un área poco explorada. Este trabajo presenta, en primer lugar, un análisis perceptual de la capacidad de control de los sistemas ITTS en dos dimensiones expresivas (adverbios de grado e intensidad emocional graduada) y recopila evaluaciones humanas sobre atributos como la edad del hablante y el énfasis a nivel de palabra. Para revelar de manera exhaustiva la brecha entre las instrucciones y la percepción, proporcionamos una recopilación de datos con evaluaciones humanas a gran escala, denominada corpus Expressive VOice Control (E-VOC). Además, descubrimos que: (1) gpt-4o-mini-tts es el modelo ITTS más confiable, con una gran alineación entre las instrucciones y las expresiones generadas en las dimensiones acústicas. (2) Los 5 sistemas ITTS analizados tienden a generar voces de adultos incluso cuando las instrucciones solicitan voces de niños o personas mayores. (3) El control fino sigue siendo un desafío importante, lo que indica que la mayoría de los sistemas ITTS tienen un margen sustancial de mejora en la interpretación de instrucciones con ligeras variaciones en los atributos.
Los agentes de rol (RPAs, por sus siglas en inglés) han atraído un interés creciente por su capacidad para simular personajes inmersivos e interactivos. Sin embargo, los enfoques existentes se centran principalmente en perfiles de rol estáticos, pasando por alto las habilidades perceptivas dinámicas inherentes a los seres humanos. Para cerrar esta brecha, introducimos el concepto de perfiles de rol dinámicos mediante la incorporación de la modalidad de video en los RPAs. Para respaldar esto, construimos Role-playing-Video60k, un conjunto de datos a gran escala y de alta calidad que comprende 60k videos y 700k diálogos correspondientes. Basándonos en este conjunto de datos, desarrollamos un marco integral para RPAs que combina el muestreo temporal adaptativo con representaciones tanto dinámicas como estáticas de los perfiles de rol. Específicamente, el perfil dinámico se crea muestreando de manera adaptativa los fotogramas del video y alimentándolos al modelo de lenguaje grande (LLM) en orden temporal, mientras que el perfil estático consiste en (1) diálogos de personajes extraídos de los videos de entrenamiento durante el ajuste fino, y (2) un contexto resumido del video de entrada durante la inferencia. Esta integración conjunta permite a los RPAs generar respuestas más ricas. Además, proponemos un método de evaluación robusto que cubre ocho métricas. Los resultados experimentales demuestran la efectividad de nuestro marco, destacando la importancia de los perfiles de rol dinámicos en el desarrollo de RPAs.
La conversación humana involucra lenguaje, habla y señales visuales, donde cada medio proporciona información complementaria. Por ejemplo, el habla transmite una vibra o tono que no se captura completamente solo con texto. Mientras que los LLM multimodales se centran en generar respuestas de texto a partir de entradas diversas, se ha prestado menos atención a la generación de habla natural y atractiva. Proponemos un agente de conversación humanoide que genera respuestas de habla basadas en el estado de ánimo de la conversación y la información del estilo de respuesta. Para lograrlo, construimos un nuevo conjunto de datos de Conversación MultiSensorial centrado en el habla, que permite a los agentes generar habla natural. Luego, proponemos un modelo basado en LLM multimodal para generar respuestas de texto y descripciones de voz, que se utilizan para generar habla que cubre información paralingüística. Los resultados experimentales demuestran la efectividad de utilizar tanto las modalidades visuales como las auditivas en la conversación para generar habla atractiva. El código fuente está disponible en https://github.com/kimtaesu24/MSenC.
Los modelos preentrenados de reconocimiento automático del habla (ASR, por sus siglas en inglés), como Whisper, funcionan bien, pero aún requieren adaptación de dominio para manejar vocabulario y expresiones no vistos. En muchos entornos del mundo real, la recopilación de datos de audio es poco práctica, lo que hace necesaria la adaptación basada únicamente en texto. Proponemos WhisTLE, un método de adaptación profundamente supervisado y basado únicamente en texto para modelos ASR preentrenados de tipo codificador-decodificador. WhisTLE entrena un autoencoder variacional (VAE) para modelar las salidas del codificador a partir de texto y ajusta el decodificador utilizando el codificador de texto a latente aprendido, opcionalmente combinado con adaptación de texto a voz (TTS). Durante la inferencia, se restaura el codificador original, sin incurrir en costos adicionales de tiempo de ejecución. En cuatro conjuntos de datos fuera de dominio y cuatro modelos ASR, WhisTLE con TTS reduce la tasa de error de palabras (WER) en un 12,3 % en comparación con la adaptación basada únicamente en TTS y supera a todas las líneas base no WhisTLE en 27 de 32 escenarios.
El objetivo final de los agentes corporizados es crear colaboradores que puedan interactuar con los humanos, no meros ejecutores que sigan instrucciones de manera pasiva. Esto requiere que los agentes se comuniquen, coordinen y adapten sus acciones en función de la retroalimentación humana. Recientemente, los avances en los VLAs (Agentes de Lenguaje Visual) han ofrecido un camino hacia este objetivo. Sin embargo, la mayoría de los agentes corporizados basados en VLAs actuales operan en un modo unidireccional: reciben una instrucción y la ejecutan sin retroalimentación. Este enfoque falla en escenarios del mundo real donde las instrucciones suelen ser ambiguas. En este artículo, abordamos este problema con el marco Ask-to-Clarify (Preguntar para Aclarar). Nuestro marco primero resuelve las instrucciones ambiguas haciendo preguntas en un diálogo de múltiples turnos. Luego, genera acciones de bajo nivel de extremo a extremo. Específicamente, el marco Ask-to-Clarify consta de dos componentes: un VLM (Modelo de Lenguaje Visual) para la colaboración y un modelo de difusión para la acción. También introducimos un módulo de conexión que genera condiciones para la difusión basadas en la salida del VLM. Este módulo ajusta la observación según las instrucciones para crear condiciones confiables. Entrenamos nuestro marco con una estrategia de aislamiento de conocimiento en dos etapas. Primero, afinamos el componente de colaboración utilizando datos de diálogo para resolver ambigüedades. Luego, integramos el componente de acción mientras congelamos el de colaboración. Esto preserva las habilidades de interacción mientras afinamos el modelo de difusión para generar acciones. La estrategia de entrenamiento garantiza que nuestro marco pueda primero hacer preguntas y luego generar acciones. Durante la inferencia, un detector de señales funciona como un enrutador que ayuda a nuestro marco a alternar entre hacer preguntas y realizar acciones. Evaluamos el marco Ask-to-Clarify en 8 tareas del mundo real, donde supera a los VLAs más avanzados existentes. Los resultados sugieren que nuestro marco propuesto, junto con la estrategia de entrenamiento, proporciona un camino hacia agentes corporizados colaborativos.