Artículos de investigación en IA seleccionados diariamente con traducciones
Mientras que los modelos fundacionales a nivel de 10B han ampliado los límites del inpainting de imágenes, sus prohibitivos costos computacionales dificultan gravemente su implementación práctica. Construir un especialista altamente optimizado para una tarea específica ofrece una solución prometedora; sin embargo, la compresión estructural extrema desencadena inevitablemente un severo cuello de botella de representación. Para superar esto, proponemos Moebius, un marco ligero de inpainting de alta eficiencia. Reconstruimos sistemáticamente la columna vertebral de difusión introduciendo el bloque de Interacción Mixta Local-λ (LλMI). Compuesto por los módulos Local-λ e Interactive-λ, este bloque resume elegantemente los contextos espaciales y las prioridades semánticas globales en matrices lineales de tamaño fijo, preservando interacciones latentes complejas mientras reduce drásticamente los parámetros. Además, para liberar toda la capacidad representacional de esta arquitectura altamente compacta, la combinamos sinérgicamente con una estrategia adaptativa de destilación multi-granularidad. Operando estrictamente dentro del espacio latente para evitar la costosa decodificación en espacio de píxeles, esta estrategia equilibra dinámicamente múltiples pérdidas basadas en gradientes para lograr una alineación de alta fidelidad. Experimentos exhaustivos en puntos de referencia naturales y de retratos demuestran que esta sinergia óptima permite a Moebius igualar o incluso superar la calidad de generación del generalista industrial de nivel 10B FLUX.1-Fill-Dev. Notablemente, Moebius logra esto utilizando menos del 2% de los parámetros (0.22B frente a 11.9B) mientras ofrece una aceleración de >15 veces en el tiempo total de inferencia, estableciendo un nuevo estándar de eficiencia para inpainting de alta fidelidad. Página del proyecto en https://hustvl.github.io/Moebius.
La interacción diestra con objetos articulados es importante para la manipulación doméstica, asistencial y humanoide, donde las manos multifalángicas pueden proporcionar patrones de contacto conformables más allá de la sujeción con pinzas paralelas. Sin embargo, la manipulación de objetos articulados difiere de la manipulación de objetos estáticos: la pieza objetivo no puede ser accionada directamente, y su movimiento debe surgir a través de un contacto físico sostenido entre la mano y el asa. Esto hace que la transición de la generación articulada centrada en el objeto a la interacción diestra mano-objeto impulsada por la mano no sea trivial, ya que la reproducción de trayectorias geométricas o la ejecución en bucle abierto no modela la dinámica de contacto necesaria para mover la pieza articulada. Además, las políticas entrenadas únicamente para la finalización de tareas bajo dinámicas fijas pueden sobreajustarse a las cargas de contacto nominales, especialmente sin retroalimentación táctil o de fuerza, y pueden degradarse cuando la carga de contacto cambia. Para abordar estos desafíos, presentamos DragMesh-2, un marco impulsado por el contacto para la interacción diestra con objetos articulados que extiende la interacción articulada desde la generación centrada en el objeto hasta la interacción diestra mano-objeto impulsada por la mano, donde el movimiento articulado debe surgir a través del contacto físico. Proponemos además PICA, un mecanismo de entrenamiento consciente del contacto informado físicamente que inyecta señales físicas en el aprendizaje de políticas sin retroalimentación táctil o de fuerza, mejorando la robustez y el éxito de la tarea bajo cargas de contacto cambiantes. Finalmente, realizamos una evaluación sistemática en múltiples condiciones de amortiguamiento y categorías de objetos articulados para estudiar la robustez bajo variación de la carga de contacto, y proporcionamos un recurso de interacción diestra de geometría pura para apoyar futuras investigaciones en manipulación locomotora e interacción mano-objeto humanoide. En siete objetos de GAPartNet, DragMesh-2 logra una robustez más fuerte bajo variación de la carga de contacto en comparación con los métodos evaluados, manteniendo un alto éxito de tarea en todas las condiciones de amortiguamiento.
LiveCodeBench (LCB) se ha convertido recientemente en un punto de referencia ampliamente adoptado para evaluar modelos de lenguaje de gran escala (LLMs) en tareas de generación de código. Al seleccionar problemas de programación competitiva, agregar constantemente problemas nuevos al conjunto y filtrarlos según sus fechas de publicación, LCB proporciona una evaluación consciente de la contaminación y ofrece una visión integral de la capacidad de codificación. Sin embargo, LCB sigue limitado a Python, dejando abierta la cuestión de si los LLMs pueden generalizar a través de los diversos lenguajes de programación requeridos en la ingeniería de software del mundo real. Introducimos Multi-LCB, un punto de referencia para evaluar LLMs en doce lenguajes de programación, incluido Python. Multi-LCB transforma las tareas de Python del conjunto de datos de LCB en tareas equivalentes en otros lenguajes, manteniendo los controles de contaminación y el protocolo de evaluación de LCB. Debido a que es completamente compatible con el formato original de LCB, Multi-LCB seguirá automáticamente las futuras actualizaciones de LCB, permitiendo una evaluación sistemática de la competencia en generación de código multilingüe y exigiendo que los modelos mantengan un rendimiento más allá de Python. Evaluamos 24 LLMs para instrucción y razonamiento en Multi-LCB, descubriendo evidencia de sobreajuste a Python, contaminación específica del lenguaje y disparidades sustanciales en el rendimiento multilingüe. Nuestros resultados establecen a Multi-LCB como un nuevo punto de referencia riguroso para la evaluación de código en múltiples lenguajes de programación, abordando directamente la principal limitación de LCB y exponiendo brechas críticas en las capacidades actuales de los LLMs.
Los sistemas robóticos agentivos actuales pueden escribir programas ejecutables de Código como Política, observar retroalimentación y revisar el comportamiento en múltiples intentos, pero siguen siendo en gran medida impulsados por tareas: las habilidades reutilizables se adquieren solo después de instrucciones explícitas. Estudiamos el Aprendizaje Robótico Agentivo Lúdico, donde un agente de codificación incorporado utiliza el juego autodirigido como una etapa continua de aprendizaje de habilidades antes de que lleguen las tareas posteriores. Presentamos RATs, Equipos de Robots Agentes diseñados para la adquisición de habilidades durante el juego. Durante el juego, RATs propone tareas exploratorias novedosas pero aprendibles, planifica y ejecuta políticas de código robótico, verifica el progreso intermedio, diagnostica fallos, reintenta con retroalimentación densa a nivel de paso y destila las ejecuciones exitosas en una biblioteca persistente de habilidades de código. En el momento de la prueba, el agente reutiliza habilidades relevantes de esta biblioteca congelada para ayudar a resolver nuevas tareas. Los experimentos en LIBERO-PRO y MolmoSpaces muestran que las habilidades aprendidas mediante el juego mejoran las tareas posteriores no vistas en comparación con las líneas base sin juego y con juego aleatorio, con ganancias de 20,6 y 17,0 puntos porcentuales sobre CaP-Agent0 en LIBERO-PRO y MolmoSpaces, respectivamente. Además, las habilidades aprendidas pueden integrarse en otros agentes de Código como Política en tiempo de inferencia simplemente recuperándolas en el contexto, mejorando la transferencia en RoboSuite y en el mundo real en 8,9 y 8,8 puntos, respectivamente, sin ajustar fino el modelo subyacente.
La inteligencia espacial en el mundo real requiere razonar sobre un mundo 3D continuo y en evolución, sin embargo, los VLMs y agentes aumentados con herramientas existentes siguen en gran medida limitados a inferencias estáticas y sin estado a partir de observaciones visuales aisladas. Presentamos \textsc{S-Agent}, un paradigma de agente espacial que utiliza herramientas para comprender y razonar sobre imágenes multivista y videos continuos. Al formular el razonamiento espacial como una acumulación de evidencia espacio-temporal en lugar de una predicción aislada a nivel de fotograma, S-Agent transforma la percepción espacial en una comprensión centrada en la escena más allá del reconocimiento centrado en el fotograma. Específicamente, S-Agent concibe el VLM como un planificador semántico que decide qué evidencia se necesita, mientras que una jerarquía de herramientas y expertos espaciales ancla objetos en 2D, los eleva a evidencia geométrica 3D y agrega esta evidencia en conocimiento espacial de alto nivel (por ejemplo, conteo, medición, orientación y posición relativa). Además, un mecanismo de memoria temporal, que incluye la Memoria de Escena para mantener el estado evolutivo de la escena y la Memoria del Agente para acumular el contexto de razonamiento, permite la integración de evidencia a través de fotogramas y pasos de razonamiento. Experimentos exhaustivos en puntos de referencia de razonamiento espacial multivista y en video muestran que S-Agent mejora consistentemente tanto VLMs de código abierto como de código cerrado sin necesidad de entrenamiento. Más allá del aumento en tiempo de inferencia, el ajuste fino supervisado (SFT) en las trayectorias espaciales generadas por S-Agent, S-300K, produce S-Agent-8B, un agente espacial compacto que supera significativamente a las líneas base de escala similar (por ejemplo, Qwen3-VL-8B) y se desempeña de manera comparable a modelos avanzados de código cerrado (por ejemplo, GPT-5.4 y Gemini 3).
Los benchmarks de agentes crecen rápidamente, pero ningún benchmark individual abarca más de cuatro o cinco de las dimensiones que la implementación revela. Este artículo agrega la mayor inmersión coordinada en profundidad realizada hasta la fecha sobre un benchmark de agente industrial basado en MCP: catorce estudios de implementación paralelos que cubren nuevas clases de activos (incluyendo una extensión visual multimodal), orquestaciones alternativas, estrategias de recuperación, modos de razonamiento, optimizaciones de infraestructura y sondeos metodológicos de evaluación. Consolidando estos estudios con siete benchmarks de agente previos, sostenemos que los tableros de clasificación basados en puntuaciones agregadas subespecifican sistemáticamente la evaluación de agentes implementados. Los rankings derivados de puntuaciones agregadas no se transfieren a entornos fuera de distribución; retrospectivas recientes de competiciones públicas a ocultas ofrecen evidencia empírica directa de esta inestabilidad en el ranking. Proponemos configuraciones de clasificación según la validez predictiva, es decir, la correlación entre el rango intra-muestra y extra-muestra, en lugar de la media intra-muestra, y reportamos un aparato de medición de doce niveles que expone las dimensiones relevantes para la implementación que HELM y sus sucesores en la era de los agentes colapsan. La postura se operacionaliza mediante tres criterios falsables fuera de distribución con umbrales explícitos; la evidencia existente la respalda parcialmente, pero es demasiado escasa para confirmarla. Concluimos con un diseño piloto preregistrado y una visión a nivel de campo de lo que la próxima generación de benchmarks de agentes debería reportar.
Los avances en campos de radiancia han permitido la síntesis fotorrealista de nuevas vistas. En diversos dominios, se han desarrollado conjuntos de datos a gran escala del mundo real para respaldar evaluaciones comparativas integrales y facilitar el progreso más allá de la reconstrucción específica de escenas. Sin embargo, para campos de radiancia libres de distractores, aún no existe un conjunto de datos a gran escala con imágenes limpias y con distractores por escena, lo que limita el desarrollo. Para abordar esta carencia, presentamos DF3DV-1K, un conjunto de datos a gran escala del mundo real que comprende 1,048 escenas, cada una de las cuales proporciona conjuntos de imágenes limpias y con distractores para evaluación comparativa. En total, el conjunto de datos contiene 89,924 imágenes capturadas con cámaras de consumo para simular una captura casual, abarcando 128 tipos de distractores y 161 temáticas escénicas en entornos interiores y exteriores. Un subconjunto seleccionado de 41 escenas, DF3DV-41, está diseñado sistemáticamente para evaluar la robustez de los métodos de campos de radiancia libres de distractores en escenarios desafiantes. Utilizando DF3DV-1K, evaluamos nueve métodos recientes de campos de radiancia libres de distractores y Gaussian Splatting 3D, identificando los métodos más robustos y los escenarios más desafiantes. Más allá de la evaluación comparativa, demostramos una aplicación de DF3DV-1K mediante el ajuste fino de un potenciador 2D basado en difusión para mejorar los métodos de campos de radiancia, logrando mejoras promedio de 0.96 dB en PSNR y 0.057 en LPIPS en el conjunto reservado (por ejemplo, DF3DV-41) y en el conjunto de datos On-the-go. Esperamos que DF3DV-1K facilite el desarrollo de la visión libre de distractores y promueva el progreso más allá de los enfoques específicos de escena. El conjunto de datos y el ranking están disponibles en https://johnnylu305.github.io/df3dv1k_web/.
La generación de doble referencia de estilo y contenido tiene como objetivo sintetizar una imagen que preserve la estructura y semántica de una referencia de contenido mientras adopta el estilo de una referencia de estilo separada. A pesar de los avances recientes, esta configuración sigue siendo un desafío, ya que los modelos deben equilibrar la fidelidad del contenido, la alineación del estilo y el seguimiento de instrucciones, evitando la fuga semántica de la referencia de estilo. Un cuello de botella clave es la falta de datos triplete a gran escala con una separación limpia entre contenido y estilo, así como una amplia cobertura de estilos de cola larga. En este trabajo, proponemos FreeStyle, un marco escalable de generación de doble referencia basado en minería de LoRA comunitaria. Tratamos las LoRA comunitarias como anclajes composicionales para el estilo y el contenido, y diseñamos un riguroso pipeline de generación y filtrado para construir tripletes a gran escala de Referencia de Estilo y Referencia de Contenido en múltiples modelos base. Para abordar la fuga de contenido, adoptamos un currículo de dos etapas con mecanismos de desentrelazado específicos de cada etapa: una restricción de enriquecimiento a nivel de atención que suprime la fuga de la referencia de estilo en la etapa de transferencia de estilo, y una estrategia de modulación RoPE sensible a la frecuencia que aborda la fuga basada en correspondencia posicional en la etapa más difícil de doble referencia. También introducimos un benchmark que cubre tanto la generación con referencia de estilo como con doble referencia, con evaluaciones de similitud de estilo, preservación de contenido, estética, seguimiento de instrucciones y rechazo de fugas. El benchmark incorpora un Puntaje de Alineación de Contenido (CAS) invariante al estilo e introduce un Puntaje de Rechazo calibrado basado en VLM para evaluar la fiabilidad de la generación y la supresión de fugas. Experimentos exhaustivos muestran que nuestro modelo logra un sólido equilibrio entre la alineación del estilo, la preservación del contenido y la supresión de fugas.
Los modelos de difusión y flujo condicionales fallan rutinariamente en cumplir las mismas restricciones que definen su tarea. Por ejemplo, un modelo condicionado por profundidad a menudo produce imágenes cuya profundidad re-extraída no coincide con la entrada, aunque el operador directo—el predictor de profundidad que define la restricción—esté disponible tanto durante el entrenamiento como en la inferencia. Los enfoques existentes generalmente se dividen en dos categorías: modelos supervisados que tratan la señal de condicionamiento como una pista estática e ignoran la información de alineación durante la inferencia, y métodos basados en guía que la consultan mediante actualizaciones lineales ajustadas manualmente, típicamente intercambiando fidelidad a la condición contra plausibilidad de la muestra generada. Argumentamos que la brecha fundamental en ambos paradigmas es que el modelo nunca es entrenado para utilizar su propio error de alineación. Presentamos FlowBender, un marco de circuito cerrado que trata este error como una entrada de primera clase, entrenando la red para aprender una política de corrección condicionada a la retroalimentación en tiempo de inferencia. En cada paso, un paso de anticipación no guiado estima la señal limpia, se calcula una desviación específica de la tarea a través del operador directo, y un paso de refinamiento consume esta señal para producir una velocidad corregida. Proponemos varias variantes de FlowBender, incluyendo una formulación basada en gradientes para operadores diferenciables y una variante de orden cero para entornos no diferenciables como la compresión JPEG. Para un muestreo eficiente, introducimos un atajo de paso previo que permite la corrección en circuito cerrado con un costo computacional adicional mínimo. En traducción de imagen a imagen, restauración y texturizado de mallas 3D, FlowBender supera consistentemente a las líneas base supervisadas estándar, al entrenamiento aumentado con pérdida de alineación y a las guías de inferencia de última generación, mejorando simultáneamente la fidelidad y la plausibilidad en lugar de intercambiarlas entre sí. Página del proyecto: https://flow-bender.github.io/
Crear ilusiones visuales 3D, una única malla 3D que revela semánticas completamente diferentes desde varios ángulos de visión, es un desafío fascinante pero difícil. Los métodos existentes basados en optimización son lentos y pueden producir colores sobresaturados. En contraste, los enfoques ingenuos de costura no logran producir objetos geométricamente coherentes. Esto da lugar a costuras antinaturales visibles y fugas semánticas. En este artículo, presentamos un marco rápido y sin necesidad de entrenamiento para generar ilusiones visuales 3D impulsadas por texto. Nuestro enfoque desacopla la generación en dos etapas. Primero, proponemos un proceso de eliminación de ruido de doble rama en espacio cruzado. Este proceso decodifica dinámicamente latentes 3D en el espacio de vóxeles para la alineación de orientación guiada por CLIP y la combinación de campos de distancia con signo (SDF), lo que garantiza una fusión geométrica sin costuras. Segundo, introducimos un módulo de síntesis de textura condicionado por la vista que proyecta y agrega priors de difusión 2D específicos de cada vista sobre la geometría fusionada. Experimentos exhaustivos demuestran que nuestro método genera ilusiones 3D dual-semánticas altamente realistas en solo 3-5 minutos. Supera significativamente a los métodos existentes en integridad geométrica, reconocibilidad semántica y eficiencia. Página del proyecto: https://siang1105.github.io/JanusMesh.github.io/
Los Modelos de Acción Mundial (WAMs) suelen basarse en la generación de video para conectar el modelado visual del mundo con el control robótico. Sin embargo, los WAMs basados en video enfrentan tres limitaciones interrelacionadas: los tokens densos de múltiples fotogramas futuros encarecen la inferencia, la predicción completa del video consume capacidad en detalles temporales y de apariencia irrelevantes para la acción, y la imaginación futura de largo horizonte puede introducir errores que desvían la predicción de la acción. Estas cuestiones plantean una pregunta simple: ¿Realmente necesita el modelo de acción mundial la generación de video? Proponemos ImageWAM, un marco simple de WAM que reutiliza modelos preentrenados de edición de imágenes para la predicción de acciones robóticas. A diferencia de la generación de video, la edición de imágenes proporciona un prior mejor ajustado: solo necesita modelar una transformación del fotograma objetivo, se centra en las diferencias visuales actual-objetivo relevantes para la acción y fundamenta las instrucciones de la tarea en cambios visuales localizados mediante el preentrenamiento en edición. En la práctica, ImageWAM no decodifica el fotograma objetivo durante la inferencia; en su lugar, condiciona un experto en acción por emparejamiento de flujo en las cachés KV producidas por la eliminación de ruido de la edición de imágenes, utilizándolas como un contexto compacto de acción-mundo. ImageWAM supera las líneas base estándar de VLA y compite con WAMs avanzados sin necesidad de preentrenamiento adicional de políticas en diversos experimentos con simuladores y el mundo real. También reduce los FLOPs a 1/6 y la latencia a 1/4 de los WAMs basados en video. El análisis de atención muestra, además, que las cachés de edición se centran en las regiones de cambio relevantes para la tarea, respaldando la edición de imágenes como una alternativa efectiva al modelado acción-mundo basado en video.
Los modelos del mundo se consideran cada vez más un paso decisivo hacia la inteligencia general artificial; sin embargo, modelar el mundo físico exige algo más que generar fotogramas convincentes bajo demanda: requiere un estado interno del mundo que siga evolucionando en el tiempo, desacoplado de la observación, de modo que los objetos perduren y los eventos lleguen a su conclusión, esté o no una cámara observando, al igual que la Luna mantiene su órbita cuando nadie la mira. Este requisito constituye un punto ciego de los bancos de pruebas existentes, que recompensan propiedades superficiales como la fidelidad, el movimiento y la controlabilidad de la cámara, sin preguntarse nunca si un mundo generado sigue evolucionando una vez que deja de ser observado. Introducimos WRBench, el primer banco de pruebas diagnósticas sistemático que trata el movimiento de la cámara como una intervención sobre la observabilidad y desglosa la evaluación en una cadena calibrada por humanos que pregunta si la cámara ejecuta la interacción solicitada, si la escena se mantiene continua e identificable mientras está a la vista, y si un objetivo que regresa se mantiene consistente con el evento que se puso en marcha. En 9.600 vídeos de 23 modelos que abarcan cuatro paradigmas de control, un hallazgo se muestra persistente: los sistemas actuales mantienen el mundo observado como un plano de seguimiento, reanudando un objetivo que regresa en el estado en que fue abandonado, en lugar de avanzar el evento mientras pasó desapercibido. Debido a que este fallo se repite en todos los paradigmas de control, familias de modelos e incrementos de escala, la evolución robusta del estado del mundo no se deriva de imágenes más limpias, un control más estricto, priores geométricos más ricos o el mero número de parámetros. Por lo tanto, argumentamos que la estabilidad del núcleo del estado físico y la consistencia de las líneas del mundo bajo intervención del punto de vista deberían convertirse en objetivos de primera clase en el diseño de modelos del mundo, de modo que un modelo del mundo capture cómo se desarrollará el mundo en lugar de cómo aparece el siguiente fotograma.
Los grandes modelos de lenguaje (LLMs) a menudo fallan cuando responder requiere identificar una pequeña pero decisiva pieza de evidencia dentro de un contexto largo o complejo, como una sola línea en un rastro de herramienta o un detalle sutil en una imagen. Proponemos ContextRL, un método de aprendizaje por refuerzo (RL) consciente del contexto que mejora el razonamiento a largo plazo y el rendimiento multimodal mediante un objetivo auxiliar indirecto. En lugar de supervisar solo la respuesta final, ContextRL presenta al modelo una consulta, una respuesta y dos contextos muy similares, y lo recompensa por seleccionar el contexto que respalda el par consulta-respuesta, fomentando así un anclaje detallado. Construimos datos de contexto contrastivos en dos dominios: para agentes de codificación, las trayectorias sirven como contextos, obteniendo 1k pares construidos mediante filtrado de condiciones; para el razonamiento multimodal, las imágenes sirven como contextos, obteniendo 7K pares construidos mediante edición generativa y búsqueda de similitud. ContextRL logra ganancias promedio de +2.2% sobre GRPO estándar en 5 puntos de referencia de razonamiento a largo plazo, y +1.8% en 12 puntos de referencia diversos de respuesta a preguntas visuales. Para desenredar el efecto del objetivo propuesto del efecto de los datos adicionales, comparamos con líneas base de aumento de datos que reutilizan los mismos contextos contrastivos como ejemplos estándar de consulta-contexto-respuesta. Estas líneas base proporcionan poca o ninguna mejora, lo que demuestra que las ganancias surgen del objetivo de selección de contexto propuesto y no únicamente de los datos contrastivos.
Lograr una manipulación robótica diestra en el mundo real depende en gran medida de la supervisión humana y la ingeniería de algoritmos, lo que se convierte en un cuello de botella central en la búsqueda de una inteligencia física general. Aunque los agentes de codificación emergentes pueden generar código para automatizar la búsqueda de algoritmos, sus éxitos se limitan en gran medida a entornos digitales. Conjeturamos que la abstracción faltante para automatizar la investigación en robótica es un bucle de retroalimentación repetible para la mejora de políticas en el mundo real: restablecer la escena, ejecutar una política, verificar el resultado y refinar la siguiente iteración. Para cerrar esta brecha, presentamos ENPIRE, un marco para agentes de codificación que instancia esta rutina de retroalimentación física con cuatro módulos centrales: un módulo de Entorno (EN) para el reinicio y verificación automáticos, un módulo de Mejora de Políticas (PI) que lanza el refinamiento de políticas, un módulo de Ejecución (R) para evaluar políticas con uno o múltiples robots físicos operando en paralelo, y un módulo de Evolución (E) en el que los agentes de codificación analizan registros, consultan literatura, mejoran la infraestructura de entrenamiento y el código de algoritmos para abordar modos de fallo. Este sistema de lazo cerrado transforma el aprendizaje de manipulación en el mundo real en un procedimiento de optimización controlable, minimizando el esfuerzo humano mientras permite ablaciones justas entre variantes de recetas de entrenamiento y agentes. Impulsados por ENPIRE, los agentes de codificación de frontera pueden entrenar autónomamente una política para lograr una tasa de éxito del 99% en tareas de manipulación diestra y desafiantes, como organizar una caja de alfileres, apretar una brida y uso de herramientas, un proceso que se acelera aún más cuando desplegamos un equipo de agentes en una flota de robots. Nuestros resultados sugieren un camino práctico y escalable hacia el despliegue de agentes de codificación para avanzar autónomamente en la robótica en el mundo físico.
El pensamiento visual no solo debe sonar correcto; debe mostrar sus evidencias. Aunque los modelos recientes de visión-lenguaje (VLM) pueden generar trazas de razonamiento en lenguaje natural, estas trazas suelen dejar implícitas las regiones de imagen de apoyo, lo que dificulta su verificación y supervisión. Introducimos el pensamiento visualmente fundamentado, un proceso de razonamiento en el que los modelos intercalan pensamientos en lenguaje natural con fundamentaciones explícitas mediante puntos o cuadros delimitadores de la evidencia visual utilizada en cada paso. Esto permite que el modelo exprese su razonamiento intermedio en lenguaje, a la vez que fundamenta los objetos clave en las regiones de imagen a las que se refieren. Para entrenar este comportamiento, construimos un pipeline de síntesis escalable que destila trazas de razonamiento visual correctas, extrae los objetos visuales requeridos por las trazas, los fundamenta con un agente basado en SAM3 y deriva supervisión alineada de puntos y cuadros a partir de las máscaras resultantes. Además, proponemos el aprendizaje por refuerzo consciente de la fundamentación, que combina recompensas por corrección de respuestas con recompensas de fundamentación densas que evalúan si las referencias a objetos generadas coinciden con la evidencia de imagen correcta. En dos pruebas de referencia de conteo y cuatro de razonamiento espacial, añadir pensamiento visualmente fundamentado a Gemma3-4B-IT mejora consistentemente el rendimiento en comparación con el modelo original y la línea base de pensamiento no fundamentado. En razonamiento espacial, los modelos de 4B con pensamiento visualmente fundamentado igualan y, en algunos casos, superan a Gemma3-27B-IT de la misma familia de modelos. Nuestro análisis muestra que la fundamentación por puntos es adecuada para el conteo, mientras que la fundamentación por cuadros delimitadores se beneficia más de las recompensas explícitas de fundamentación en tareas espaciales. En conjunto, nuestros resultados evidencian que los VLM piensan mejor cuando sus pensamientos intermedios están vinculados a las regiones de imagen que los hacen verdaderos.
Los pipelines de LLM de múltiples pasos fallan debido a interacciones entre los pasos de recuperación, razonamiento y formateo, por lo que la optimización solo mediante prompts puede pasar por alto los cuellos de botella en la cadena. Presentamos FAPO (Fully Autonomous Prompt Optimization), un marco que permite a Claude Code optimizar un pipeline de LLM dentro de una base de código estandarizada. FAPO evalúa un pipeline, inspecciona los pasos intermedios, diagnostica fallos, propone cambios acotados y valida variantes repetidamente para optimizar en función de una función de puntuación. Primero intenta ediciones en los prompts y, solo cuando la optimización de prompts parece insuficiente, cambia la estructura de la cadena dentro del alcance permitido cuando la atribución identifica un cuello de botella estructural. En seis puntos de referencia y tres modelos de tarea, FAPO supera la línea base GEPA en 15 de 18 comparaciones modelo-punto de referencia. En 11 comparaciones modelo-punto de referencia, FAPO gana con rangos de media ± desviación estándar de prueba no superpuestos, y la ganancia media de FAPO sobre GEPA es de +14.1 pp. En las seis comparaciones de HoVer e IFBench donde la búsqueda primero en prompts escaló a cambios estructurales, FAPO gana las seis con una ganancia media de +33.8 pp. FAPO también mejora el rendimiento en tareas de seguridad: en CTIBench-RCM, una tarea de seguridad de CVE a CWE, FAPO solo con prompts aumenta la precisión de prueba en +4.0 pp en GPT-5, +7.1 pp en Foundation-Sec-8B-Instruct y +2.0 pp en Foundation-Sec-8B-Reasoning. Estos resultados posicionan a FAPO como una técnica de optimización de pipelines de vanguardia tanto para tareas de propósito general como para tareas centradas en seguridad.
Se espera que los modelos fundacionales encarnados se beneficien del escalado de datos al igual que los grandes modelos de lenguaje, pero enfrentan un cuello de botella de datos mucho más estricto. Las trayectorias de robots reales teleoperadas siguen siendo la fuente dominante de preentrenamiento debido a su precisa supervisión de acciones y alineación con la encarnación, pero su escalabilidad está limitada por el alto costo de recolección, la dificultad de adquisición y la baja diversidad conductual y ambiental. Estas limitaciones han despertado interés en el video humano egocéntrico como una alternativa escalable, de costo sustancialmente menor y más diversa para el preentrenamiento de modelos encarnados. Sin embargo, su efectividad en comparación con los datos de robots reales teleoperados sigue siendo poco explorada. Para abordar esta cuestión, realizamos un estudio sistemático que compara el video humano egocéntrico y las trayectorias de robots reales teleoperadas como fuentes de datos de preentrenamiento para modelos fundacionales encarnados, bajo protocolos fijos de post-entrenamiento y validación. Sorprendentemente, encontramos que los datos egocéntricos, cuando se procesan a través de un proceso de filtrado y etiquetado cuidadosamente diseñado, no solo son un sustituto viable para el preentrenamiento de modelos, sino que pueden conducir a un rendimiento superior. Con la misma cantidad de datos de preentrenamiento, los modelos preentrenados con datos egocéntricos logran una pérdida de validación un 24% menor en la predicción de acciones de robots reales, así como tasas de éxito un 52.5% y un 90% más altas en la ejecución de tareas de robots reales dentro de la distribución y fuera de la distribución, respectivamente. Este hallazgo verifica un paradigma escalable para modelos fundacionales encarnados: preentrenar con video humano egocéntrico para aprender representaciones diversas del mundo, luego adaptar con una pequeña cantidad de datos etiquetados de robots reales para la alineación del espacio de acciones. Esperamos que este estudio fomente una exploración más amplia de los datos egocéntricos y ofrezca orientación para la evaluación de la calidad de los datos antes de la costosa recolección de datos de robots.
Los modelos de mundo en video están avanzando hacia la preservación de un mundo observado bajo movimientos controlables de cámara y objetos, al mismo tiempo que permiten cambios en su estado ambiental. Sin embargo, estos controles permanecen aislados, y la generación climática suele depender de un video de origen o de una escena reconstruida que ya especifica la estructura futura. Estudiamos un entorno de estado anclado al primer fotograma, donde el modelo parte de una única imagen y sigue controles explícitos de cámara y objetos, además de una instrucción climática opcional, para luego generar un video que preserva el mundo original o lo transfiere a un estado climático objetivo. Para abordar estos desafíos, primero construimos HoloStateData, un conjunto de datos de video en estado que convierte diversos videos en muestras de control unificadas para supervisar cámara, objetos y clima. En segundo lugar, presentamos Holo-World, un modelo de mundo en video controlable y unificado que dirige conjuntamente la escena a partir de una sola imagen. Su Adaptador de Escena Unificado factoriza la preservación del mundo y la transferencia climática en subespacios de parámetros distintos, utilizando fondo renderizado, búferes geométricos y controles de objetos para mantener la estructura de la escena controlada mientras modela la apariencia dependiente del clima y los efectos de partículas. Además, la CFG Descompuesta en Escena y Clima guía los residuos de escena y clima por separado, fortaleciendo los efectos climáticos objetivo sin amplificar en exceso la condición completa. Experimentos cuantitativos y cualitativos demuestran que Holo-World mantiene un control preciso de cámara y objetos con una estructura de escena consistente, al tiempo que transfiere escenas a diversos estados climáticos objetivo, superando a las líneas base de edición climática de video a video en la generación de estado climático. Nuestra página del proyecto está disponible en https://xiangchenyin.github.io/Holo-World/.
El entrenamiento FP4 promete reducciones sustanciales en el costo de memoria y cómputo para el preentrenamiento de LLM, sin embargo, las rutas y recetas actuales de hardware FP4, incluidos los sistemas NVIDIA clase Blackwell/Rubin y las GPU AMD serie MI350, siguen centradas en elementos de datos E2M1. En este estudio, identificamos una limitación fundamental de esa elección: los formatos no uniformes como E2M1 sufren inherentemente del Sesgo de Contracción (Shrinkage Bias), un error de redondeo negativo sistemático causado por la asimetría geométrica de sus bins representables. Demostramos que este sesgo se acumula multiplicativamente a través de las capas y se amplifica mediante la Transformada Aleatoria de Hadamard (Random Hadamard Transform, RHT), proporcionando una explicación unificada para la inestabilidad de entrenamiento observada en las recetas FP4 basadas en E2M1 existentes. En contraste, las cuadrículas uniformes (E1M2/INT4) evitan este error de geometría de cuadrícula y convierten la mejora en la utilización de buckets de la RHT en una mayor calidad de cuantización. Basándonos en este hallazgo, proponemos UFP4, una receta de entrenamiento uniforme de 4 bits que aplica RHT a los tres GEMMs de entrenamiento, mientras restringe el redondeo estocástico únicamente a dY. En el preentrenamiento de larga duración con Dense 1.5B, MoE 7.9B y MoE 124B, UFP4 logra consistentemente una menor degradación de pérdida relativa a BF16 que los sólidos baselines basados en E2M1, respaldado por análisis de leyes de escalado y estudios de ablación. Nuestros resultados sugieren que los futuros aceleradores deberían soportar cuadrículas uniformes de 4 bits de estilo E1M2/INT4 como primitivas de entrenamiento de primera clase, junto con E2M1.
El progreso en la inteligencia artificial jurídica depende cada vez más del acceso a textos legales autoritativos a gran escala. Sin embargo, uno de los niveles más relevantes del derecho estadounidense sigue estando prácticamente ausente en los corpus digitales existentes: las ordenanzas locales. Los códigos locales regulan el zonificación, la vivienda, las licencias comerciales, la salud pública, el ruido, el control animal y muchos otros ámbitos de la regulación cotidiana, pero se encuentran fragmentados en plataformas de proveedores diseñadas para la navegación humana y no para el acceso masivo a la investigación. Presentamos LOCUS (Local Ordinance Corpus for the United States, por sus siglas en inglés), un corpus integral y una capa de acceso armonizada a nivel de condado para los códigos de ordenanzas municipales y de condado de Estados Unidos. El corpus bruto, disponible para su publicación a investigadores, representa prácticamente todos los códigos de ordenanzas municipales y de condado de acceso público. El corpus bruto resultante contiene códigos de 9.239 ciudades y condados. Una capa de acceso LOCUS más reducida, armonizada a nivel de condado, proporciona cobertura para los 2.309 condados más grandes de los 3.144 de Estados Unidos, que concentran la mayor parte de la población. Utilizamos OCR para procesar la miríada de formatos documentales que han impedido que la ley sea un recurso público. Publicamos el corpus con metadatos de cobertura para apoyar la reproducibilidad, la investigación posterior en inteligencia artificial jurídica y la expansión incremental del acceso legible por máquina al derecho local. Entrenamos un conjunto de clasificadores y puntuadores basados en ModernBERT para facilitar el análisis del derecho local estadounidense en varias dimensiones, como la opacidad y el paternalismo, que no se habían estudiado previamente a esta escala. LOCUS-v1 y sus modelos derivados están disponibles en: https://huggingface.co/datasets/LocalLaws/LOCUS-v1
La Distancia de Inception de Fréchet (FID) es el árbitro de facto en la generación de imágenes, sin embargo, la mayoría de los artículos reportan un solo número de un único modelo entrenado con una única semilla de muestreo. ¿Qué tan reproducible es ese número si reentrenamos el modelo, o simplemente lo remuestreamos? En este artículo, tratamos la FID como una variable aleatoria en un panel de dos ejes de semillas de entrenamiento y generación, y medimos su varianza directamente en varios cientos de redes SiT entrenadas en ImageNet 256x256 condicionado por clase. Reportamos hallazgos sorprendentes: (a) Reentrenar el modelo usando la misma receta con una semilla diferente desplaza la FID 3,2 veces más (en el espacio de características de Inception) que volver a muestrear desde una red fija. (b) Esa brecha es impulsada por tres factores: inicialización aleatoria, orden de los datos y el ruido gaussiano por paso de la pérdida de flow-matching. (c) Aumentar el cómputo o el tamaño del modelo apenas reduce la dispersión, manteniendo el coeficiente de variación (CoV) de la FID dentro de una banda del 1-2%. (d) El ajuste por celda de la guía libre de clasificador reduce a la mitad la dispersión pero reordena qué semillas funcionan mejor, y una semilla de entrenamiento afortunada alcanza la misma FID con hasta 2 veces menos cómputo que una desafortunada. Basándonos en estos hallazgos, recomendamos un nuevo protocolo de evaluación de FID: evaluar bajo guía óptima por celda, tratar cualquier brecha de FID por debajo del CoV medido empíricamente de ~1,3% como no concluyente, e informar una barra de error sobre varias semillas de entrenamiento en lugar de un único número de FID.
Los enfoques recientes de generación aumentada por recuperación (RAG) han demostrado una sólida capacidad para manejar consultas complejas, sin embargo, la investigación actual omite un desafío crítico: diferentes recuperadores requieren estrategias de formulación de consultas fundamentalmente distintas para un rendimiento óptimo. En este trabajo, presentamos el primer análisis sistemático de cómo los LLM pueden aprender a adaptar sus estrategias de formulación de consultas para distintos recuperadores mediante aprendizaje por refuerzo (RL). Nuestro estudio empírico revela que RL enseña efectivamente a un LLM a ajustar sus consultas a las características específicas del recuperador. Descubrimos que diferentes recuperadores exhiben estilos de consulta óptimos sorprendentemente distintos (por ejemplo, descriptivos frente a tipo pregunta), lo que sugiere que las estrategias aprendidas para un recuperador son ineficaces para otro. Además, demostramos que el rendimiento puede mejorarse incorporando orientación humana específica del recuperador y escalando el tamaño del modelo. Para facilitar el aprendizaje sobre trayectorias de múltiples pasos de recuperación, introducimos una técnica de despliegue basada en ramificación que mejora la estabilidad del entrenamiento. Nuestro trabajo proporciona la primera evidencia empírica y recomendaciones prácticas para construir sistemas RAG verdaderamente conscientes del recuperador. El código y los recursos están disponibles en https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval.
Los agentes de llamada a herramientas que cumplen con políticas en dominios de atención al cliente deben mantener estados de tarea a lo largo de los turnos mientras invocan herramientas y respetan las políticas del dominio. Los estados de tarea consisten en hechos relevantes, identificadores, restricciones y condiciones observados a través de la interacción con el usuario y las llamadas a herramientas. En los agentes estándar, los estados de tarea no se representan de forma separada. Las observaciones, los resultados de las herramientas y las instrucciones de política se incluyen en el prompt, lo que obliga a los agentes a reconstruir los estados relevantes a partir del prompt cada vez que deciden qué hacer a continuación. Este diseño hace que la gestión de estados sea implícita, generando dos modos de fallo comunes. Un agente puede recuperar los hechos correctos, pero luego fundamentar su decisión en información desactualizada, faltante o incorrecta; y una llamada a herramienta sintácticamente válida puede violar una política del dominio que depende del estado actual de la tarea. Presentamos LedgerAgent, un método en tiempo de inferencia para agentes de llamada a herramientas que mantiene los estados de tarea observados en un registro separado e incorpora dichos estados en el prompt. El registro también se utiliza para verificar las restricciones de política dependientes del estado antes de ejecutar llamadas a herramientas que modifican el entorno, bloqueando así las violaciones de política. En cuatro dominios de atención al cliente y un panel mixto de modelos de peso abierto y cerrado, LedgerAgent mejora el passk promedio en comparación con un enfoque estándar de llamada a herramientas basado en prompt, con las mayores ganancias bajo métricas de consistencia de múltiples ensayos más estrictas.
Los modelos de atención lineal híbrida ofrecen una vía atractiva para una inferencia de contexto largo más rápida: reducen el costo cuadrático y la carga de caché KV de la atención softmax completa, al tiempo que conservan gran parte de la calidad de los modelos Transformer. Una forma práctica de obtener dichos modelos es convertir un Transformer preentrenado en lugar de preentrenar una nueva arquitectura desde cero, pero esta conversión sigue siendo frágil. Simplemente copiar las proyecciones de atención del profesor en un estudiante Gated DeltaNet (GDN) no especifica la nueva dinámica de decaimiento recurrente, escritura y compuerta de salida. Como resultado, el modelo convertido a menudo comienza en un régimen dinámico deficiente y debe dedicar muchos tokens de destilación a reparar la inicialización en lugar de aprender el comportamiento restante del profesor. Proponemos Taylor-Calibrate, un método de inicialización ligero para estudiantes GDN híbridos. El método utiliza estadísticas de atención del profesor guiadas por Taylor para establecer la proyección de valor, la escala de tiempo de la memoria, las compuertas de escritura y la compuerta de salida, y luego aplica un breve paso de alineación por capa para ajustar cada capa convertida a la salida del profesor. En cuatro configuraciones de profesor y tres políticas de capas retenidas, Taylor-Calibrate proporciona estudiantes de cero disparos sustancialmente más sólidos, con una mejora de hasta 88 veces en una ablación representativa, y alcanza objetivos de recuperación equiparados con entre 4.9 y 9.2 veces menos tokens de entrenamiento que la conversión ingenua.
Las propiedades mecánicas precisas (de los materiales) —módulo de Young (E), coeficiente de Poisson (ν) y densidad (ρ)— son esenciales para una simulación física fiable de mundos digitales, pero la mayoría de los activos 3D carecen de esta información. Proponemos AdaVoMP, un método para predecir (E, ν, ρ) densos y espacialmente variables con precisión para objetos 3D de entrada, independientemente de su representación, mejorando la resolución, precisión y eficiencia de memoria con respecto al estado del arte. La base de nuestra técnica es una estructura de vóxeles dispersa y adaptativa (SAV) que representa de manera eficiente tanto la forma 3D de entrada como el campo de materiales de salida. Reemplazamos el modelo de vóxeles fijos del método previo más preciso, VoMP, con un novedoso modelo de transformador codificador-decodificador disperso que aprende a generar una SAV única de forma autoregresiva para cada forma de entrada, representando sus materiales, logrando una resolución 16³ veces mayor que la del arte previo. Los experimentos muestran que AdaVoMP estima propiedades volumétricas más precisas, incluso con menor coste computacional en tiempo de prueba que todo el arte previo. Esto nos permite convertir objetos 3D complejos de alta resolución en activos listos para simulación, resultando en simulaciones deformables realistas.
Los sistemas de IA desplegados en flujos de trabajo legales alucinan a tasas que las métricas agregadas reportan en ~52%, pero este promedio oculta dónde se concentran los errores y en qué dirección se manifiestan, dejando a los oficiales de cumplimiento sin una señal procesable para un despliegue confiable. Presentamos LegalHalluLens, un marco de auditoría con tres componentes: perfiles de alucinación tipificados en cuatro categorías de afirmaciones legalmente motivadas (numérica, temporal, obligación/derecho, fácticas) sobre CUAD (Hendrycks et al., 2021); un Índice de Dirección de Riesgo (RDI) que reduce el sesgo de omisión versus invención a un escalar comparable entre despliegues; y un pipeline de debate tipificado calibrado tanto para magnitudes como para direcciones. En 510 contratos y 249 252 instancias a nivel de cláusula, medimos una brecha intra-modelo de aproximadamente 38-40 puntos porcentuales entre afirmaciones de obligación/numéricas y temporales que los reportes agregados ocultan, y mostramos que dos sistemas con tasas igualadas del 52% pueden tener RDI opuestos. El pipeline de debate reduce las detecciones fabricadas en un 45%, con ganancias por categoría que siguen el diagnóstico, igualando a las API comerciales con un backbone sustancialmente más pequeño (4 mil millones de parámetros activos). Los perfiles tipificados y el RDI revelan modos de falla que las métricas agregadas ocultan; además, mostramos que estos diagnósticos sirven como entradas de calibración para pipelines de debate multiagente, donde los desafíos del Escéptico y las compuertas asimétricas dirigidas a modos de falla medidos superan al debate genéricamente ajustado. El marco respalda la adquisición consciente de la dirección, la rendición de cuentas y el diseño de agentes para IA legal desplegada en entornos reales.
Los contextos de los pacientes abarcan cientos de documentos heterogéneos y miles de puntos de datos estructurados, pero los metadatos a nivel de documento que los sistemas de IA necesitan para la recuperación y la clasificación están ausentes o incompletos. La generación aumentada por recuperación estándar falla con estos datos, manejando incorrectamente el razonamiento temporal, las dependencias entre documentos y los metadatos faltantes. Implementamos ACIE (Extracción Clínica de Información Basada en Agentes) en el Hospital Universitario de Essen: un pipeline de RAG agente local que razona sobre contextos completos de pacientes y fundamenta cada respuesta en pasajes fuente para su verificación por parte de los médicos. Cuantificamos la brecha de metadatos, trazamos las decisiones arquitectónicas que esta generó y evaluamos la extracción junto con un estudio retrospectivo independiente del registro de linfoma, en el que médicos de medicina nuclear verificaron cada valor extraído con sus fuentes citadas. Sobre 7.326 juicios, los clínicos aceptaron el 96,5% de las extracciones, con una aceptación por tipo que osciló entre el 80% y el 99%.
La orquestación espacial 3D precisa en la generación de texto a video sigue siendo un desafío significativo, particularmente para escenas con múltiples objetos donde la disposición semántica y la dinámica temporal a menudo están entrelazadas. Si bien los modelos existentes condicionados por profundidad logran una buena fidelidad estructural, requieren una guía densa y precisa por fotograma que requiere mucho trabajo para crear eventos dinámicos que involucran objetos deformables. Presentamos LooseControlVideo, un marco que permite un control intuitivo y expresivo mediante el uso de cajas 3D orientadas dispersas como un proxy de "bloqueo". Esto permite a los usuarios crear disposición y trayectoria de alto nivel mientras aprovechan un modelo generativo de video para generar oclusiones, dinámicas e interacciones realistas. Logramos esto mediante el ajuste fino de un modelo base Wan 2.2 en un conjunto de datos de video anotado con DNOCS, una nueva codificación para tamaño 3D, orientación y oclusiones ordenadas por profundidad. Además, nuestro método permite un refinamiento localizado, como ajustar una trayectoria de salto o agregar una interacción, con una interrupción mínima del contexto global de la escena. Evaluaciones exhaustivas en los conjuntos de referencia nuScenes, HO-3D y BEHAVE demuestran que LooseControlVideo supera significativamente a las líneas base existentes basadas en cajas 2D y flujo. Nuestros hallazgos indican una mejora de 1,2 a 3 veces en el Error de trayectoria; una mejora de 2 veces en la Consistencia de movimiento rígido; y un aumento de 1,5 a 2 veces en la Precisión de oclusión en comparación con los modelos de última generación condicionados por disposición, lo que demuestra que las primitivas 3D orientadas proporcionan un buen prior geométrico para la creación de video complejo con múltiples agentes.
El desarrollo actual de videojuegos impulsado por IA ha logrado avances sustanciales en la generación de activos, el diseño de jugabilidad y la codificación de juegos basados en web; sin embargo, la ingeniería de código a nivel de proyecto en motores de juego profesionales sigue siendo un área poco explorada debido a la ausencia de conjuntos de datos a gran escala y métodos de evaluación deterministas. Presentamos JamSet y JamBench, el primer conjunto de datos y referencia de código de juegos a nivel de proyecto construido sobre un motor de juego profesional. Nuestra idea clave es que las competiciones Game Jam, eventos comunitarios donde los desarrolladores construyen juegos completos bajo estrictas limitaciones de tiempo, generan miles de proyectos de código abierto adecuados para este propósito. Basándonos en el formato basado en texto y el modo de ejecución headless del motor Godot, diseñamos una tubería de verificación determinista que abarca desde la integridad de archivos hasta la recolección del comportamiento en tiempo de ejecución, obteniendo 8,133 proyectos verificados de más de 240,000 repositorios. De estos, 300 proyectos verificados manualmente conforman JamBench; el resto constituye JamSet. JamBench define tareas de generación basadas en temáticas y de completado de código, evaluadas mediante una tubería que combina tasas de aprobación de compilación, el Puntaje de Integridad Estructural (SCS) y el Puntaje de Alineación de Comportamiento (BAS). La evaluación de 9 modelos de frontera revela un abismo de capacidad a medida que aumenta la escala del proyecto, con tasas de aprobación en tiempo de ejecución que caen del 80,4% en proyectos pequeños al 5,7% en proyectos grandes (Tarea2a). Los Agentes de Código mejoran las tasas de compilación, pero no generan ganancias en la calidad del comportamiento en tiempo de ejecución, lo que indica que el cuello de botella radica en el diseño arquitectónico más que en la corrección sintáctica. Los experimentos validan a JamSet como datos de entrenamiento efectivos. Todos los datos y el código están disponibles públicamente.
Los enfoques típicos de aprendizaje centrado en objetos en video (VOCL) emplean marcos basados en slots que dependen de arquitecturas codificador-decodificador impulsadas por reconstrucción, donde el aprendizaje se media mediante dos mapas espaciales: mapas de atención del codificador y mapas de objetos del decodificador. Dado que estos dos mapas distintos exhiben propiedades diferentes, una estrategia reciente de alineación densa intentó reconciliar esta discrepancia imponiendo concordancia en todos los parches espacio-temporales mediante aprendizaje contrastivo. Sin embargo, esta alineación indiscriminada propaga inadvertidamente las debilidades inherentes de cada módulo, como predicciones ruidosas del codificador y límites borrosos del decodificador. Además, el cálculo de similitudes densas entre todos los pares conlleva un costo computacional cuadrático en el número total de parches espacio-temporales, lo que limita severamente la escalabilidad. Motivados por esto, proponemos Aprendizaje Sinérgico Selectivo (SSync). En lugar de una alineación exhaustiva parche a parche, SSync previene la propagación de errores destilando selectivamente solo las señales más confiables: aprovechando el codificador estrictamente para el refinamiento de bordes y el decodificador para la eliminación de ruido interno. Esto se logra mediante un pseudoetiquetado con complejidad lineal, eliminando la necesidad de comparaciones espaciales cuadráticas. Además, para evitar el refuerzo de sesgos arquitectónicos como la redundancia de slots, introducimos una fusión transitiva de pseudoetiquetas que consolida slots superpuestos basándose en la consistencia de activación espacio-temporal. Estudios exhaustivos demuestran que SSync mejora la calidad de descomposición y funciona como un módulo versátil y de conexión directa, exhibiendo también una robustez excepcional frente a configuraciones de slots. El código está disponible en github.com/wjun0830/SSync.
Existe una brecha significativa entre la teoría y la práctica en el aprendizaje profundo. Los límites de error de generalización y aproximación a menudo se derivan para modelos simplificados o son demasiado laxos para ser informativos. Muchos se basan en la hipótesis de la variedad y en la regularidad geométrica, como la dimensión intrínseca, la curvatura y el alcance. El progreso requiere comprender la geometría de la variedad de datos y contar con puntos de referencia adecuados; sin embargo, las opciones existentes están polarizadas: variedades analíticas con geometría conocida pero aplicabilidad limitada, o conjuntos de datos del mundo real donde la geometría solo puede estimarse de manera burda. Presentamos un marco de referencia para estudiar la geometría de los datos. Reutilizamos y extendemos dSprites y COIL-20 con dimensiones de transformación adicionales y un muestreo denso alineado con los ejes, y los emparejamos con estimadores de diferencias finitas que recuperan la curvatura, el alcance y el volumen con una precisión casi real en un régimen donde los estimadores de propósito general no son fiables o difíciles de implementar. El marco está concebido como un banco de pruebas controlado, útil como entorno de calibración para estimadores geométricos y como caja de arena para probar supuestos teóricos. Para ilustrar su uso, presentamos dos estudios de aplicación: evaluar el comportamiento de escalamiento de los límites de Genovese et al. y Fefferman et al., y rastrear la geometría capa por capa de un β-VAE, destacando el comportamiento de los límites actuales y el valor de los puntos de referencia controlados para guiar y validar la teoría futura. Una implementación de referencia está disponible en https://github.com/koulakis/manifold-microscope.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han avanzado significativamente en la automatización de tareas de ingeniería de software. Un ejemplo destacado es la generación de código, donde un LLM produce código en un lenguaje de programación específico a partir de una descripción en lenguaje natural. La mayoría de las investigaciones en esta área se han centrado en lenguajes de alto recursos, como Python o Java, que se benefician de abundantes datos de entrenamiento. Un conjunto más reducido de trabajos ha explorado lenguajes de bajos recursos, que están subrepresentados en los corpus de entrenamiento. En cambio, los lenguajes sin recursos, para los cuales los LLMs prácticamente no han visto datos de entrenamiento, siguen siendo en gran medida no estudiados. Estos lenguajes suelen surgir en la industria, donde las organizaciones desarrollan lenguajes propietarios o específicos de dominio no compatibles con herramientas comerciales como GitHub Copilot. Esto genera la necesidad de que las empresas implementen sus propios recomendadores de código internos. Para investigar posibles soluciones en este contexto, construimos y publicamos tres puntos de referencia de generación de código para lenguajes sin recursos, basados en dos lenguajes de programación recientemente propuestos para los cuales hay muy pocos datos de entrenamiento disponibles. Utilizando estos puntos de referencia, experimentamos varias soluciones para enseñar a los LLMs sobre lenguajes sin recursos, incluyendo técnicas basadas en indicaciones (prompts), así como preentrenamiento y ajuste fino que explotan los pocos datos disponibles. Si bien un preentrenamiento adicional proporciona las mayores ganancias de rendimiento para lenguajes sin recursos, aplicarlo directamente a modelos ajustados por instrucciones perjudica su capacidad para seguir instrucciones. Para abordar esto, partimos de un modelo base, lo preentrenamos adicionalmente en el lenguaje objetivo, y luego inyectamos capacidades de seguimiento de instrucciones mediante la transferencia de diferencias de pesos desde un modelo de instrucciones. Este enfoque mejora significativamente las capacidades de generación de código en entornos sin recursos, permitiendo a las empresas implementar de forma económica un modelo de instrucciones especializado sin tener que lidiar con el costo computacional del ajuste fino por instrucciones.
Las políticas de planificación en pipelines de servicio a gran escala de Reconocimiento Automático del Habla (ASR) juegan un papel clave en la determinación de la latencia de extremo a extremo (E2E). Sin embargo, los motores de servicio ampliamente utilizados dependen de una planificación de primero en llegar, primero en ser atendido (FCFS), que ignora la variabilidad en la duración de las solicitudes y conduce al bloqueo de cabeza de línea bajo deriva de la carga de trabajo. Demostramos que la duración del audio es un indicador preciso del tiempo de procesamiento de tareas en modelos ASR como Whisper, y utilizamos esta observación para habilitar una planificación consciente de la duración. Integramos dos algoritmos clásicos, Primero el Trabajo Más Corto (SJF) y Siguiente el de Mayor Razón de Respuesta (HRRN), en vLLM y los evaluamos bajo cargas de trabajo realistas y con deriva. En LibriSpeech test-clean, en comparación con la línea base, SJF reduce la latencia mediana E2E hasta en un 73% bajo alta carga, pero aumenta la latencia de cola del percentil 90 hasta en un 97% debido a la inanición de solicitudes largas. HRRN aborda esta compensación: reduce la latencia mediana E2E hasta en un 28% mientras acota la degradación de la latencia de cola a como máximo un 24%. Estas ganancias persisten bajo deriva de la carga de trabajo, sin penalización de rendimiento y con una sobrecarga de planificación de menos de 0,1 ms por solicitud.
Los sistemas existentes de Programación por Ejemplo (PBE) a menudo se basan en benchmarks simplificados que no logran capturar la alta complejidad estructural de las expresiones regulares reales, como un anidamiento más profundo y el uso frecuente de operaciones de unión. Para superar la consiguiente caída en el rendimiento, proponemos ReSyn, un marco de divide y vencerás independiente del sintetizador que descompone problemas complejos de síntesis en subproblemas manejables. También presentamos Set2Regex, un sintetizador eficiente en parámetros que captura la invarianza de permutación de los ejemplos. Los resultados experimentales demuestran que ReSyn mejora significativamente la precisión en varios sintetizadores, y su combinación con Set2Regex establece un nuevo estado del arte en benchmarks reales desafiantes. El código fuente completo, los conjuntos de datos y los puntos de control del modelo preentrenado están disponibles públicamente en https://github.com/mrseongminkim/ReSyn.