Artículos de investigación en IA seleccionados diariamente con traducciones
La diversidad de los datos posteriores al entrenamiento es crucial para un rendimiento efectivo en tareas posteriores de los modelos de lenguaje grandes (LLM). Muchos enfoques existentes para construir estos datos cuantifican la diversidad mediante métricas basadas en texto que capturan la variación lingüística, pero dichas métricas solo proporcionan señales débiles sobre las características relevantes para la tarea que determinan el rendimiento final. En este trabajo, presentamos la Cobertura de Activación de Características (FAC), que mide la diversidad de datos en un espacio de características interpretable. Basándonos en esta métrica, proponemos además un marco de síntesis de datos impulsado por la diversidad, denominado FAC Synthesis, que primero utiliza un autoencoder disperso para identificar las características faltantes en un conjunto de datos inicial, y luego genera muestras sintéticas que reflejan explícitamente estas características. Los experimentos muestran que nuestro enfoque mejora consistentemente tanto la diversidad de datos como el rendimiento en diversas tareas, incluyendo el seguimiento de instrucciones, la detección de toxicidad, el modelado de recompensas y la orientación del comportamiento. Curiosamente, identificamos un espacio de características interpretable compartido entre diferentes familias de modelos (es decir, LLaMA, Mistral y Qwen), lo que permite la transferencia de conocimiento entre modelos. Nuestro trabajo proporciona una metodología sólida y práctica para explorar la optimización de los LLM centrada en los datos.
La recuperación de consultas habladas es un modo de interacción importante en la recuperación de información moderna. Sin embargo, los conjuntos de datos de evaluación existentes a menudo se limitan a consultas simples bajo condiciones de ruido restringidas, lo que los hace inadecuados para evaluar la robustez de los sistemas de recuperación de consultas habladas bajo perturbaciones acústicas complejas. Para abordar esta limitación, presentamos SQuTR, un benchmark de robustez para la recuperación de consultas habladas que incluye un conjunto de datos a gran escala y un protocolo de evaluación unificado. SQuTR agrega 37.317 consultas únicas de seis conjuntos de datos de recuperación de texto en inglés y chino de uso común, abarcando múltiples dominios y diversos tipos de consultas. Sintetizamos voz utilizando perfiles vocales de 200 hablantes reales y mezclamos 17 categorías de ruido ambiental del mundo real bajo niveles controlados de SNR, permitiendo una evaluación de robustez reproducible desde condiciones silenciosas hasta altamente ruidosas. Bajo el protocolo unificado, realizamos evaluaciones a gran escala en sistemas de recuperación en cascada y de extremo a extremo representativos. Los resultados experimentales muestran que el rendimiento de la recuperación disminuye a medida que aumenta el ruido, con caídas sustancialmente diferentes entre los sistemas. Incluso los modelos de recuperación a gran escala tienen dificultades bajo ruido extremo, lo que indica que la robustez sigue siendo un cuello de botella crítico. En general, SQuTR proporciona un banco de pruebas reproducible para la evaluación comparativa y el análisis de diagnóstico, y facilita la investigación futura sobre la robustez en la recuperación de texto a partir de consultas habladas.
Presentamos MedXIAOHE, un modelo fundacional de visión y lenguaje médico diseñado para impulsar la comprensión y el razonamiento médico de propósito general en aplicaciones clínicas del mundo real. MedXIAOHE logra un rendimiento de vanguardia en diversos benchmarks médicos y supera a los principales sistemas multimodales de código cerrado en múltiples capacidades. Para conseguirlo, proponemos un marco de preentrenamiento continuo consciente de entidades que organiza corpus médicos heterogéneos para ampliar la cobertura de conocimiento y reducir las brechas de cola larga (por ejemplo, enfermedades raras). Para un razonamiento e interacción a nivel de experto médico, MedXIAOHE incorpora diversos patrones de razonamiento médico mediante aprendizaje por refuerzo y entrenamiento agentivo aumentado con herramientas, permitiendo un razonamiento diagnóstico multi-etapa con trazas de decisión verificables. Para mejorar la fiabilidad en entornos reales, MedXIAOHE integra rúbricas de preferencia del usuario, razonamiento basado en evidencias y generación de informes extensos con baja alucinación, mostrando una mayor adherencia a las instrucciones médicas. Publicamos este informe para documentar nuestras decisiones de diseño prácticas, hallazgos sobre escalabilidad y marco de evaluación, con la esperanza de inspirar futuras investigaciones.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) sobresalen en la comprensión visual general, pero aún tienen dificultades con la percepción de grano fino, donde la evidencia decisiva es pequeña y se ve fácilmente superada por el contexto global. Los métodos recientes de "Pensar con Imágenes" mitigan esto al hacer zoom iterativo en las regiones de interés durante la inferencia, pero incurren en una alta latencia debido a las repetidas llamadas a herramientas y a la recodificación visual. Para abordar este problema, proponemos la Destilación de Región a Imagen, que transforma el zoom de una herramienta en tiempo de inferencia a una primitiva en tiempo de entrenamiento, internalizando así los beneficios del zoom agéntico en un único pase hacia adelante de un MLLM. En particular, primero hacemos zoom en regiones micro-recortadas para permitir que modelos docentes fuertes generen datos de VQA de alta calidad, y luego destilamos esta supervisión basada en regiones de vuelta a la imagen completa. Después del entrenamiento con tales datos, el modelo estudiante más pequeño mejora la percepción de grano fino de "un solo vistazo" sin usar herramientas. Para evaluar rigurosamente esta capacidad, presentamos además ZoomBench, un benchmark de anotación híbrida con 845 datos de VQA que abarcan seis dimensiones perceptivas de grano fino, junto con un protocolo de vista dual que cuantifica la "brecha de zoom" global-regional. Los experimentos muestran que nuestros modelos logran un rendimiento líder en múltiples benchmarks de percepción de grano fino, y también mejoran la cognición multimodal general en benchmarks como el razonamiento visual y los agentes de GUI. Además, discutimos cuándo es necesario "Pensar con Imágenes" frente a cuándo sus beneficios pueden destilarse en un único pase hacia adelante. Nuestro código está disponible en https://github.com/inclusionAI/Zooming-without-Zooming.
**Hipótesis.** La inteligencia artificial general es, en esencia, un problema de compresión. La compresión efectiva exige resonancia: el aprendizaje profundo escala mejor cuando su arquitectura se alinea con la estructura fundamental de los datos. Estos son los principios fundamentales. Sin embargo, las arquitecturas de visión modernas se han alejado de estas verdades: las señales visuales son altamente redundantes, mientras que la información discriminativa, la sorpresa, es escasa. Los modelos actuales procesan uniformemente densas rejillas de píxeles, malgastando enormes recursos computacionales en fondos estáticos en lugar de centrarse en los residuos predictivos que definen el movimiento y el significado. Sostenemos que para resolver la comprensión visual, debemos alinear nuestras arquitecturas con los principios de la teoría de la información aplicados al video, es decir, con los Codecs. **Método.** OneVision-Encoder codifica video comprimiendo la estructura visual predictiva en significado semántico. Al adoptar la Parcheificación por Codec, OV-Encoder abandona el cálculo uniforme para centrarse exclusivamente en el 3,1%-25% de las regiones ricas en entropía de la señal. Para unificar el razonamiento espacial y temporal bajo disposiciones irregulares de tokens, OneVision-Encoder emplea un 3D RoPE compartido y se entrena con un objetivo de discriminación por agrupación a gran escala sobre más de un millón de conceptos semánticos, capturando conjuntamente la permanencia del objeto y la dinámica del movimiento. **Evidencia.** Los resultados validan nuestra hipótesis central: la eficiencia y la precisión no son una disyuntiva; están positivamente correlacionadas. Cuando se integra en un LLM, supera consistentemente a arquitecturas de visión robustas como Qwen3-ViT y SigLIP2 en 16 benchmarks de comprensión de imágenes, video y documentos, a pesar de utilizar sustancialmente menos tokens visuales y datos de preentrenamiento. Notablemente, en tareas de comprensión de video, OV-Encoder logra una mejora promedio del 4,1% sobre Qwen3-ViT. La escasez a nivel de parche, alineada con los codecs, es un principio fundamental que permite a OV-Encoder funcionar como un motor escalable para la próxima generación de sistemas visuales generalistas.
Los Modelos de Lenguaje de Video (VideoLMs) permiten a los sistemas de IA comprender la dinámica temporal en videos. Para adaptarse a la restricción de la ventana de contexto máximo, los métodos actuales utilizan muestreo de fotogramas clave, lo que puede omitir tanto eventos a nivel macro como detalles a nivel micro debido a la cobertura temporal dispersa. Además, procesar imágenes completas y sus tokens para cada fotograma conlleva una sobrecarga computacional sustancial. Para abordar estas limitaciones, proponemos aprovechar las primitivas de códec de video (específicamente vectores de movimiento y residuos) que codifican de forma nativa la redundancia y la dispersión del video sin requerir una costosa codificación de imagen completa para la mayoría de los fotogramas. Con este fin, presentamos codificadores ligeros basados en transformadores que agregan primitivas de códec y alinean sus representaciones con los embeddings del codificador de imágenes mediante una estrategia de preentrenamiento que acelera la convergencia durante el ajuste fino de extremo a extremo. Nuestro enfoque reduce el tiempo hasta el primer token hasta en un 86% y el uso de tokens hasta en un 93% en comparación con los VideoLMs estándar. Además, al variar las densidades de fotogramas clave y primitivas de códec, logramos mantener o superar el rendimiento en 14 benchmarks diversos de comprensión de video que abarcan respuesta a preguntas generales, razonamiento temporal, comprensión de formato largo y comprensión de escenas espaciales.
Este artículo presenta GeoAgent, un modelo capaz de razonar estrechamente con humanos y derivar conclusiones de direcciones de grano fino. Los métodos anteriores basados en RL han logrado avances en rendimiento e interpretabilidad, pero aún generan inquietudes debido a su dependencia de datos de cadena de pensamiento (CoT) generados por IA y estrategias de entrenamiento que entran en conflicto con las características geográficas. Para abordar estos problemas, primero presentamos GeoSeek, un nuevo conjunto de datos de geolocalización que comprende datos CoT anotados por expertos en geografía y jugadores profesionales. Además, exploramos exhaustivamente las características inherentes de las tareas geográficas y proponemos una recompensa de similitud geográfica y una recompensa de consistencia evaluada por un agente de consistencia para ayudar en el entrenamiento. Esto incentiva al modelo a converger hacia respuestas correctas desde una perspectiva geográfica, garantizando al mismo tiempo la integridad y coherencia de su proceso de razonamiento. Los resultados experimentales muestran que GeoAgent supera a los métodos existentes y a una serie de VLLMs generales en múltiples escalas, generando un razonamiento que se alinea estrechamente con el humano.
La recuperación de vídeos basada en el movimiento semántico es un problema fundamental pero aún sin resolver. Los enfoques de representación de vídeo existentes dependen excesivamente de la apariencia estática y el contexto de la escena, en lugar de la dinámica del movimiento, un sesgo heredado de sus datos y objetivos de entrenamiento. Por el contrario, las entradas tradicionales centradas en el movimiento, como el flujo óptico, carecen de la base semántica necesaria para comprender el movimiento de alto nivel. Para demostrar este sesgo inherente, presentamos los benchmarks SimMotion, que combinan datos sintéticos controlados con un nuevo conjunto de datos del mundo real anotado manualmente. Mostramos que los modelos existentes tienen un rendimiento deficiente en estas pruebas, a menudo sin lograr separar el movimiento de la apariencia. Para abordar esta brecha, proponemos SemanticMoments, un método simple y libre de entrenamiento que calcula estadísticas temporales (específicamente, momentos de orden superior) sobre características de modelos semánticos preentrenados. En todas nuestras pruebas, SemanticMoments supera consistentemente a los métodos existentes basados en RGB, flujo óptico y supervisión textual. Esto demuestra que las estadísticas temporales en un espacio de características semánticas proporcionan una base escalable y perceptualmente fundamentada para la comprensión de vídeos centrada en el movimiento.
El aprendizaje por refuerzo (RL) con recompensas verificables se ha convertido en una etapa estándar posterior al entrenamiento para potenciar el razonamiento visual en modelos de visión y lenguaje, sin embargo, aún no está claro qué capacidades mejora realmente el RL en comparación con el ajuste fino supervisado como inicialización desde cero (IN). Las mejoras en los puntos de referencia de extremo a extremo combinan múltiples factores, lo que dificulta atribuir las mejoras a habilidades específicas. Para cerrar esta brecha, proponemos un marco de análisis estilo Frankenstein que incluye: (i) localización funcional mediante sondeo causal; (ii) caracterización de actualizaciones mediante comparación de parámetros; y (iii) prueba de transferibilidad mediante fusión de modelos. En cambio, el RL induce un cambio consistente en el momento de la inferencia principalmente en las capas medias y tardías, y estos refinamientos de mediano a tardío son tanto transferibles (mediante fusión) como necesarios (mediante congelación) para las ganancias del RL. En general, nuestros resultados sugieren que la contribución confiable del RL en el razonamiento visual no es una mejora uniforme de la percepción visual, sino un refinamiento sistemático del cálculo en las etapas medias y tardías del transformador que mejora la alineación visión-razonamiento y el rendimiento del razonamiento, destacando las limitaciones de la evaluación basada únicamente en puntos de referencia para comprender las mejoras en el razonamiento multimodal.
Los agentes de IA son capaces de abordar tareas cada vez más complejas. Para lograr objetivos más ambiciosos, estos agentes necesitan descomponer problemas significativamente en subcomponentes manejables y delegar su realización de forma segura tanto a otros agentes de IA como a humanos. Sin embargo, los métodos existentes de descomposición y delegación de tareas se basan en heurísticas simples y no pueden adaptarse dinámicamente a los cambios del entorno ni manejar fallos inesperados de forma robusta. Aquí proponemos un marco adaptativo para la delegación inteligente de IA: una secuencia de decisiones que implica la asignación de tareas y que también incorpora la transferencia de autoridad, responsabilidad, rendición de cuentas, especificaciones claras sobre roles y límites, claridad de intención y mecanismos para establecer confianza entre las dos (o más) partes. El marco propuesto es aplicable tanto a delegantes como a delegados humanos y de IA en redes de delegación complejas, con el objetivo de informar el desarrollo de protocolos en la emergente web agentiva.
La construcción de agentes corporizados de propósito general para hardware diverso sigue siendo un desafío central en robótica, a menudo enmarcado como el paradigma de ''un-cerebro, muchas-formas''. El progreso se ve obstaculizado por datos fragmentados, representaciones inconsistentes y objetivos de entrenamiento desalineados. Presentamos ABot-M0, un marco que construye un pipeline sistemático de curación de datos mientras optimiza conjuntamente la arquitectura del modelo y las estrategias de entrenamiento, permitiendo la transformación end-to-end de datos crudos heterogéneos en representaciones unificadas y eficientes. A partir de seis conjuntos de datos públicos, limpiamos, estandarizamos y balanceamos muestras para construir UniACT-dataset, un conjunto de datos a gran escala con más de 6 millones de trayectorias y 9.500 horas de datos, que cubre diversas morfologías de robots y escenarios de tareas. El pre-entrenamiento unificado mejora la transferencia de conocimiento y la generalización entre plataformas y tareas, apoyando la inteligencia corporizada de propósito general. Para mejorar la eficiencia y estabilidad de la predicción de acciones, proponemos la Hipótesis del Variedad de Acciones: las acciones efectivas del robot no residen en el espacio completo de alta dimensión, sino en una variedad (manifold) de baja dimensión y suave, gobernada por leyes físicas y restricciones de la tarea. Basándonos en esto, introducimos el Aprendizaje de la Variedad de Acciones (AML), que utiliza un backbone DiT para predecir secuencias de acciones limpias y continuas directamente. Esto cambia el aprendizaje de la eliminación de ruido a la proyección sobre variedades factibles, mejorando la velocidad de decodificación y la estabilidad de la política. ABot-M0 soporta percepción modular mediante un mecanismo de doble flujo que integra semántica de VLM con priores geométricos y entradas multi-vista de módulos 3D plug-and-play como VGGT y Qwen-Image-Edit, mejorando la comprensión espacial sin modificar el backbone y mitigando las limitaciones estándar de los VLM en el razonamiento 3D. Los experimentos muestran que los componentes operan de forma independiente con beneficios aditivos. Liberaremos todo el código y pipelines para garantizar la reproducibilidad y futuras investigaciones.
La simulación ofrece una forma escalable y de bajo costo para enriquecer el entrenamiento visión-lenguaje-acción (VLA), reduciendo la dependencia de demostraciones costosas con robots reales. Sin embargo, la mayoría de los métodos de co-entrenamiento sim-real se basan en el ajuste fino supervisado (SFT), que trata la simulación como una fuente estática de demostraciones y no aprovecha la interacción interactiva a gran escala en bucle cerrado. En consecuencia, las ganancias en el mundo real y la generalización suelen ser limitadas. En este artículo, proponemos un marco de \textit{Co}-entrenamiento sim-real basado en \textit{RL} (RL-Co) que aprovecha la simulación interactiva mientras preserva las capacidades en el mundo real. Nuestro método sigue un diseño genérico de dos etapas: primero inicializamos la política mediante SFT con una mezcla de demostraciones reales y simuladas, y luego la ajustamos mediante aprendizaje por refuerzo en simulación, añadiendo una pérdida supervisada auxiliar sobre datos del mundo real para anclar la política y mitigar el olvido catastrófico. Evaluamos nuestro marco en cuatro tareas de manipulación en mesas del mundo real utilizando dos arquitecturas VLA representativas, OpenVLA y π_{0.5}, y observamos mejoras consistentes respecto al ajuste fino solo con datos reales y al co-entrenamiento basado en SFT, incluyendo un +24% de éxito en el mundo real con OpenVLA y un +20% con π_{0.5}. Más allá de mayores tasas de éxito, el co-entrenamiento con RL produce una generalización más sólida a variaciones de tareas no vistas y mejora sustancialmente la eficiencia de los datos del mundo real, proporcionando una vía práctica y escalable para aprovechar la simulación y mejorar el despliegue de robots reales.
La comprensión universal de video requiere modelar información visual y auditiva de grano fino a lo largo del tiempo en diversos escenarios del mundo real. Sin embargo, el rendimiento de los modelos existentes se ve limitado principalmente por datos de instrucción de video que representan contenido audiovisual complejo mediante descripciones únicas e incompletas, carentes de organización detallada y anotación confiable. Para abordar esto, presentamos: (i) ASID-1M, una colección de código abierto de un millón de anotaciones de instrucción audiovisual estructuradas y detalladas con supervisión de atributos únicos y múltiples; (ii) ASID-Verify, un pipeline escalable de curación de datos para anotación, con verificación y refinamiento automáticos que garantizan la consistencia semántica y temporal entre las descripciones y el contenido audiovisual correspondiente; y (iii) ASID-Captioner, un modelo de comprensión de video entrenado mediante Fine-Tuning Supervisado (SFT) en ASID-1M. Los experimentos en siete benchmarks que abarcan descripción audiovisual, descripción por atributos, preguntas y respuestas basadas en descripciones y localización temporal basada en descripciones muestran que ASID-Captioner mejora la calidad de las descripciones detalladas mientras reduce las alucinaciones y mejora el seguimiento de instrucciones. Logra un rendimiento de vanguardia entre los modelos de código abierto y es competitivo con Gemini-3-Pro.
La inferencia de modelos de lenguaje grandes (LLM) a menudo está limitada por la huella de memoria y el ancho de banda de memoria en implementaciones con recursos restringidos, lo que convierte a la cuantización en una técnica fundamental para un servicio eficiente. Si bien la cuantización posterior al entrenamiento (PTQ) mantiene una alta fidelidad a 4 bits, se deteriora a 2-3 bits. Fundamentalmente, los métodos existentes imponen una cuadrícula de cuantización invariante en forma (por ejemplo, los intervalos uniformes fijos de UINT2) para cada grupo, restringiendo severamente el conjunto factible para la minimización del error. Para abordar esto, proponemos la Cuantización por Descomposición en Planos de Bits (BPDQ), que construye una cuadrícula de cuantización variable mediante planos de bits y coeficientes escalares, y los refina iterativamente utilizando información de segundo orden aproximada mientras compensa progresivamente los errores de cuantización para minimizar la discrepancia en la salida. En el régimen de 2 bits, BPDQ permite servir Qwen2.5-72B en una sola RTX 3090 con un 83.85% de precisión en GSM8K (frente al 90.83% a 16 bits). Además, proporcionamos un análisis teórico que muestra que la cuadrícula variable expande el conjunto factible, y que el proceso de cuantización se alinea consistentemente con el objetivo de optimización en la geometría inducida por el Hessiano. Código: github.com/KingdalfGoodman/BPDQ.
Los modelos de lenguaje de gran escala de difusión (dLLM) han surgido como una alternativa atractiva a los modelos de lenguaje de gran escala autoregresivos (AR), debido a su capacidad para generar tokens en paralelo. Este paradigma es particularmente adecuado para la generación de código, donde la planificación estructural holística y el refinamiento no secuencial son críticos. A pesar de este potencial, adaptar los dLLM para la generación de kernels de CUDA sigue siendo un desafío, obstaculizado no solo por la alta especialización sino también por la grave falta de datos de entrenamiento de alta calidad. Para abordar estos desafíos, construimos CuKe, un conjunto de datos aumentado de ajuste fino supervisado optimizado para kernels de CUDA de alto rendimiento. Sobre esta base, proponemos un marco de aprendizaje por refuerzo con selección en dos fases (BiC-RL) que consiste en una etapa de relleno de kernels de CUDA y una etapa de generación de kernels de CUDA de extremo a extremo. Aprovechando este marco de entrenamiento, presentamos DICE, una serie de modelos de lenguaje de gran escala de difusión diseñados para la generación de kernels de CUDA, que abarcan tres escalas de parámetros: 1.7B, 4B y 8B. Experimentos exhaustivos en KernelBench demuestran que DICE supera significativamente tanto a los modelos de lenguaje de gran escala autoregresivos como a los de difusión de escala comparable, estableciendo un nuevo estado del arte para la generación de kernels de CUDA.
El razonamiento científico exige inherentemente la integración de herramientas sofisticadas para navegar el conocimiento específico de cada dominio. Sin embargo, los puntos de referencia actuales pasan por alto en gran medida la capacidad de los agentes para orquestar herramientas en flujos de trabajo tan rigurosos. Para cerrar esta brecha, presentamos SciAgentGym, un entorno interactivo y escalable que incluye 1.780 herramientas específicas de dominio en cuatro disciplinas de ciencias naturales, respaldado por una infraestructura de ejecución robusta. Complementando esto, presentamos SciAgentBench, una suite de evaluación escalonada diseñada para someter a prueba las capacidades agenticas, desde acciones elementales hasta flujos de trabajo de largo horizonte. Nuestra evaluación identifica un cuello de botella crítico: los modelos de última generación tienen dificultades con el uso complejo de herramientas científicas. Incluso para un modelo líder como GPT-5, las tasas de éxito caen drásticamente del 60,6% al 30,9% a medida que se extienden los horizontes de interacción, principalmente debido a fallos en la ejecución de flujos de trabajo de múltiples pasos. Para abordar este problema, proponemos SciForge, un método de síntesis de datos que modela el espacio de acciones de herramientas como un grafo de dependencias para generar trayectorias de entrenamiento lógicamente conscientes. Al ajustar estos modelos en dichas trayectorias, nuestro SciAgent-8B supera al significativamente más grande Qwen3-VL-235B-Instruct, mientras exhibe una transferencia positiva cruzada de dominios en las capacidades de uso de herramientas científicas. Estos resultados subrayan el prometedor potencial de la próxima generación de agentes científicos autónomos.
El ajuste fino por aprendizaje por refuerzo (RL) se ha convertido en una técnica clave para mejorar los modelos de lenguaje grande (LLM) en tareas que requieren un razonamiento intensivo, lo que motiva su extensión a los modelos de lenguaje visual (VLM). Si bien los VLM ajustados con RL mejoran en los puntos de referencia de razonamiento visual, siguen siendo vulnerables a un grounding visual débil, alucinaciones y a una dependencia excesiva de las señales textuales. Demostramos que perturbaciones textuales simples y controladas—leyendas engañosas o trazas incorrectas de pensamiento en cadena (CoT)—provocan caídas sustanciales en la robustez y la confianza, y que estos efectos son más pronunciados cuando se tiene en cuenta la coherencia del CoT en diversos modelos de razonamiento multimodal de código abierto. Las métricas basadas en entropía muestran además que estas perturbaciones remodelan la incertidumbre del modelo y la masa de probabilidad en la opción correcta, exponiendo tendencias específicas del modelo en la mala calibración. Para comprender mejor estas vulnerabilidades, analizamos además la dinámica del ajuste fino con RL y descubrimos una disyuntiva entre precisión y fidelidad: el ajuste fino aumenta la precisión en los puntos de referencia, pero puede erosionar simultáneamente la fiabilidad del CoT que lo acompaña y su robustez ante cambios contextuales. Aunque la aumentación adversarial mejora la robustez, por sí sola no impide la deriva de la fidelidad. Incorporar una recompensa consciente de la fidelidad puede restaurar la alineación entre las respuestas y el razonamiento, pero cuando se combina con la aumentación, el entrenamiento corre el riesgo de colapsar en estrategias de acceso directo y la robustez sigue siendo esquiva. En conjunto, estos hallazgos resaltan las limitaciones de las evaluaciones basadas únicamente en la precisión y motivan protocolos de entrenamiento y evaluación que enfaticen conjuntamente la corrección, la robustez y la fidelidad del razonamiento basado en información visual.
Las políticas generativas iterativas, como los modelos de difusión y el *flow matching*, ofrecen una expresividad superior para el control continuo, pero complican el Aprendizaje por Refuerzo de Entropía Máxima porque sus log-densidades de acción no son directamente accesibles. Para abordar esto, proponemos Field Least-Energy Actor-Critic (FLAC), un marco de trabajo *likelihood-free* que regula la estocasticidad de la política penalizando la energía cinética del campo de velocidad. Nuestra idea clave es formular la optimización de políticas como un problema de Puente de Schrödinger Generalizado (GSB) relativo a un proceso de referencia de alta entropía (por ejemplo, uniforme). Bajo esta perspectiva, el principio de entropía máxima surge naturalmente como el hecho de mantenerse cerca de una referencia de alta entropía mientras se optimiza la recompensa, sin requerir densidades de acción explícitas. En este marco, la energía cinética sirve como un sustituto con base física para la divergencia de la referencia: minimizar la energía en el espacio de trayectorias acota la desviación de la distribución de acción terminal inducida. Basándonos en esta visión, derivamos un esquema de iteración de políticas regularizado por energía y un algoritmo práctico *off-policy* que sintoniza automáticamente la energía cinética mediante un mecanismo dual lagrangiano. Empíricamente, FLAC logra un rendimiento superior o comparable en benchmarks de alta dimensionalidad en relación con líneas base sólidas, evitando al mismo tiempo la estimación de densidad explícita.
En este informe presentamos Xiaomi-Robotics-0, un modelo avanzado de visión-lenguaje-acción (VLA) optimizado para alto rendimiento y una ejecución rápida y fluida en tiempo real. La clave de nuestro método reside en una estrategia de entrenamiento y despliegue cuidadosamente diseñada. Xiaomi-Robotics-0 se preentrena primero con trayectorias robóticas de gran escala y datos de visión-lenguaje de múltiples embodimientos, dotándolo de capacidades amplias y generalizables para la generación de acciones, evitando al mismo tiempo el olvido catastrófico del conocimiento visual-semántico del modelo VLA preentrenado base. Durante el post-entrenamiento, proponemos varias técnicas para entrenar el modelo VLA en ejecución asíncrona, con el fin de abordar la latencia de inferencia durante los despliegues en robots reales. En la fase de despliegue, alineamos meticulosamente los intervalos de tiempo de los fragmentos de acción consecutivos predichos para garantizar despliegues continuos y sin interrupciones en tiempo real. Evaluamos Xiaomi-Robotics-0 exhaustivamente en benchmarks de simulación y en dos tareas desafiantes con robots reales que requieren una manipulación bimanual precisa y diestra. Los resultados demuestran que nuestro método alcanza un rendimiento puntero en todos los benchmarks de simulación. Además, Xiaomi-Robotics-0 puede desplegarse de forma rápida y fluida en robots reales utilizando una GPU de gama consumidor, logrando altas tasas de éxito y rendimiento en ambas tareas con robots reales. Para facilitar la investigación futura, el código y los puntos de control del modelo son de código abierto en https://xiaomi-robotics-0.github.io.
Lograr inteligencia espacial requiere ir más allá de la plausibilidad visual para construir simuladores del mundo basados en leyes físicas. Si bien los LLM de codificación han avanzado en la generación de escenas 3D estáticas, extender este paradigma a la dinámica 4D sigue siendo una frontera crítica. Esta tarea presenta dos desafíos fundamentales: el entrelazamiento de contexto a múltiples escalas, donde la generación monolítica no logra equilibrar las estructuras de objetos locales con los diseños de entornos globales; y una brecha de ejecución semántico-física, donde la generación de código en bucle abierto conduce a alucinaciones físicas que carecen de fidelidad dinámica. Presentamos Code2Worlds, un marco que formula la generación 4D como una generación de código de lenguaje a simulación. Primero, proponemos una arquitectura de doble flujo que desentrelaza la generación de objetos aumentada por recuperación de la orquestación ambiental jerárquica. Segundo, para garantizar la fidelidad dinámica, establecemos un mecanismo de bucle cerrado consciente de la física en el cual un Agente de Postprocesado genera scripts de dinámicas, acoplado con un Crítico de Movimiento VLM que realiza una autorreflexión para refinar iterativamente el código de simulación. Las evaluaciones en el benchmark Code4D muestran que Code2Worlds supera a los baselines con una ganancia SGS del 41% y un 49% más de Riqueza, mientras genera de forma única dinámicas conscientes de la física ausentes en métodos estáticos previos. Código: https://github.com/AIGeeksGroup/Code2Worlds. Sitio web: https://aigeeksgroup.github.io/Code2Worlds.
Los recientes avances en modelos generativos basados en difusión han establecido un nuevo paradigma para la reiluminación de imágenes y vídeos. Sin embargo, extender estas capacidades a la reiluminación 4D sigue siendo un desafío, principalmente debido a la escasez de datos de entrenamiento 4D emparejados para reiluminación y la dificultad de mantener la coherencia temporal entre vistas extremas. En este trabajo, proponemos Light4D, un novedoso marco de trabajo que no requiere entrenamiento, diseñado para sintetizar vídeos 4D consistentes bajo una iluminación objetivo, incluso bajo cambios extremos de punto de vista. En primer lugar, introducimos la Guía de Flujo Disociado, una estrategia consciente del tiempo que inyecta eficazmente el control de iluminación en el espacio latente preservando la integridad geométrica. En segundo lugar, para reforzar la coherencia temporal, desarrollamos la Atención Temporalmente Consistente dentro de la arquitectura IC-Light e incorporamos además una regularización determinista para eliminar el parpadeo de apariencia. Experimentos exhaustivos demuestran que nuestro método logra un rendimiento competitivo en coherencia temporal y fidelidad de iluminación, manejando robustamente rotaciones de cámara de -90° a 90°. Código: https://github.com/AIGeeksGroup/Light4D. Sitio web: https://aigeeksgroup.github.io/Light4D.
Proponemos UniDFlow, un marco unificado de flujo discreto adaptado para la comprensión, generación y edición multimodal. Este marco desacopla la comprensión y la generación mediante adaptadores de bajo rango específicos por tarea, evitando la interferencia de objetivos y el entrelazamiento de representaciones. Simultáneamente, una novedosa alineación de preferencias multimodales basada en referencias optimiza los resultados relativos bajo un condicionamiento idéntico, mejorando la fidelidad y la controlabilidad sin necesidad de un reentrenamiento a gran escala. UniDFlow logra un rendimiento de vanguardia (SOTA) en ocho benchmarks y exhibe una fuerte generalización *zero-shot* para tareas que incluyen la restauración (*inpainting*), la generación de imágenes en contexto (*in-context*), la edición basada en referencias y la generación composicional, a pesar de no haber recibido entrenamiento explícito específico para estas tareas.
Los métodos tradicionales para automatizar el diseño de sistemas de recomendación, como la Búsqueda de Arquitectura Neuronal (NAS), a menudo se ven limitados por un espacio de búsqueda fijo definido por conocimientos previos humanos, lo que restringe la innovación a operadores predefinidos. Si bien los marcos recientes de evolución de código impulsados por LLM trasladan el objetivo del espacio de búsqueda fijo a espacios de programas abiertos, dependen principalmente de métricas escalares (por ejemplo, NDCG, Tasa de Aciertos) que no logran proporcionar información cualitativa sobre las fallas del modelo ni una guía direccional para su mejora. Para abordar esto, proponemos Self-EvolveRec, un marco novedoso que establece un ciclo de retroalimentación direccional mediante la integración de un Simulador de Usuario para críticas cualitativas y una Herramienta de Diagnóstico del Modelo para la verificación interna cuantitativa. Además, introducimos una estrategia de Co-Evolución del Modelo - Herramienta de Diagnóstico para garantizar que los criterios de evaluación se adapten dinámicamente a medida que evoluciona la arquitectura de recomendación. Experimentos exhaustivos demuestran que Self-EvolveSupera significativamente a los baselines state-of-the-art de NAS y evolución de código impulsada por LLM, tanto en rendimiento de recomendación como en satisfacción del usuario. Nuestro código está disponible en https://github.com/Sein-Kim/self_evolverec.
Los modelos de difusión de audio pueden sintetizar música de alta fidelidad a partir de texto, pero sus mecanismos internos para representar conceptos de alto nivel siguen siendo poco comprendidos. En este trabajo, utilizamos la técnica de "activation patching" para demostrar que distintos conceptos musicales semánticos, como la presencia de instrumentos específicos, voces o características de género, son controlados por un subconjunto pequeño y compartido de capas de atención en las arquitecturas de difusión de audio más avanzadas. A continuación, demostramos que la aplicación de Adición de Activación Contrastante y Autoencoders Dispersos en estas capas permite un control más preciso sobre el audio generado, lo que indica un beneficio directo del fenómeno de especialización. Al dirigir las activaciones de las capas identificadas, podemos alterar elementos musicales específicos con alta precisión, como modular el tempo o cambiar el estado de ánimo de una pista.
Los métodos de dirección influyen en el comportamiento de los Modelos de Lenguaje a Gran Escala identificando direcciones semánticas en las representaciones ocultas, pero normalmente se materializan mediante intervenciones en las activaciones durante la inferencia que aplican una modificación fija y global a los estados internos del modelo. Si bien son efectivas, estas intervenciones suelen inducir compensaciones desfavorables entre atributos y utilidad bajo un control fuerte, ya que ignoran el hecho de que muchos comportamientos están gobernados por un subconjunto pequeño y heterogéneo de componentes del modelo. Proponemos Steer2Edit, un marco teóricamente fundamentado y libre de entrenamiento, que transforma los vectores de dirección de señales de control en tiempo de inferencia en señales de diagnóstico para la edición de pesos de rango-1 a nivel de componentes. En lugar de inyectar uniformemente una dirección de guiado durante la generación, Steer2Edit redistribuye selectivamente la influencia conductual a través de cabezas de atención individuales y neuronas MLP, produciendo ediciones interpretables que preservan la pasada hacia adelante estándar y mantienen la compatibilidad con la inferencia paralela optimizada. En áreas como la alineación de seguridad, la mitigación de alucinaciones y la eficiencia del razonamiento, Steer2Edit logra consistentemente compensaciones más favorables entre atributos y utilidad: con un rendimiento equivalente en tareas posteriores, mejora la seguridad hasta en un 17.2%, aumenta la veracidad en un 9.8% y reduce la longitud del razonamiento en un 12.2% en promedio. En general, Steer2Edit proporciona un puente fundamentado entre la dirección de representaciones y la edición de pesos, traduciendo señales de dirección en actualizaciones de parámetros interpretables y sin necesidad de entrenamiento.
Los Modelos de Lenguaje Grandes (LLM) representan una frontera prometedora para los sistemas de recomendación, aunque su desarrollo se ha visto obstaculizado por la ausencia de leyes de escalado predecibles, las cuales son cruciales para guiar la investigación y optimizar la asignación de recursos. Nuestra hipótesis es que esto puede atribuirse al ruido inherente, los sesgos y la incompletitud de los datos brutos de interacción del usuario en los esfuerzos previos de pre-entrenamiento continuo (CPT). Este artículo presenta un marco novedoso y escalonado para generar datos sintéticos de alta calidad que evita dichos problemas mediante la creación de un currículo pedagógico y curado para el LLM. Proporcionamos evidencia directa y sólida de la utilidad de nuestro currículo al demostrar que los modelos secuenciales estándar entrenados con nuestros datos sintéticos fundamentados superan significativamente (+130% en recall@100 para SasRec) a los modelos entrenados con datos reales en tareas de clasificación posteriores, lo que demuestra su superioridad para aprender patrones generalizables de preferencias de usuario. Basándonos en esto, demostramos empíricamente, por primera vez, un escalado robusto de ley de potencia para un LLM que es pre-entrenado continuamente con nuestros datos de alta calidad y específicos para recomendación. Nuestros experimentos revelan una reducción de perplejidad consistente y predecible a través de múltiples modalidades de datos sintéticos. Estos hallazgos establecen una metodología fundamental para escalar de manera confiable las capacidades de los LLM en el dominio de la recomendación, desplazando así el enfoque de la investigación desde la mitigación de deficiencias de los datos hacia el aprovechamiento de información estructurada y de alta calidad.
Los grandes modelos fundacionales han demostrado una fuerte generalización en mundo abierto para problemas complejos en visión y lenguaje, pero aún no se han alcanzado niveles similares de generalización en robótica. Un desafío fundamental es que los modelos exhiben una capacidad limitada de zero-shot, lo que dificulta su habilidad para generalizar efectivamente a escenarios no vistos. En este trabajo, proponemos GeneralVLA (Modelos Generalizables de Visión-Lenguaje-Acción con Planificación de Trayectoria Guiada por Conocimiento), un modelo jerárquico de visión-lenguaje-acción (VLA) que puede ser más efectivo para utilizar la generalización de los modelos fundacionales, permitiendo la manipulación zero-shot y generando automáticamente datos para robótica. En particular, estudiamos una clase de modelo VLA jerárquico donde el módulo de alto nivel ASM (Módulo de Segmentación de Afordanzas) se ajusta para percibir las afordanzas de puntos clave de la imagen en la escena; el agente 3D de nivel medio lleva a cabo la comprensión de tareas, el conocimiento de habilidades y la planificación de trayectorias para producir una ruta 3D que indica la trayectoria deseada del efector final del robot. La predicción intermedia de la ruta 3D sirve luego como guía para la política de control de bajo nivel, consciente del entorno 3D y capaz de realizar manipulaciones precisas. En comparación con enfoques alternativos, nuestro método no requiere recopilación de datos robóticos del mundo real ni demostraciones humanas, lo que lo hace mucho más escalable para diversas tareas y puntos de vista. Empíricamente, GeneralVLA genera con éxito trayectorias para 14 tareas, superando significativamente a métodos state-of-the-art como VoxPoser. Las demostraciones generadas pueden entrenar políticas de clonación de comportamiento más robustas que el entrenamiento con demostraciones humanas o con datos generados por VoxPoser, Scaling-up y Code-As-Policies. Creemos que GeneralVLA puede ser el método escalable tanto para generar datos para robótica como para resolver nuevas tareas en un entorno zero-shot. Código: https://github.com/AIGeeksGroup/GeneralVLA. Sitio web: https://aigeeksgroup.github.io/GeneralVLA.
La cuantización post-entrenamiento (PTQ) es esencial para desplegar modelos de lenguaje grande (LLMs) en dispositivos con memoria limitada, pero vuelve a los modelos estáticos y difíciles de ajustar. Los paradigmas estándar de ajuste fino, incluido el aprendizaje por refuerzo (RL), dependen fundamentalmente de la retropropagación y pesos de alta precisión para calcular gradientes. Por lo tanto, no pueden utilizarse en modelos cuantizados, donde el espacio de parámetros es discreto y no diferenciable. Aunque las estrategias evolutivas (ES) ofrecen una alternativa libre de retropropagación, la optimización de los parámetros cuantizados aún puede fallar debido a gradientes que se desvanecen o son inexactos. Este artículo presenta las Estrategias Evolutivas Cuantizadas (QES), un paradigma de optimización que realiza el ajuste fino de parámetros completos directamente en el espacio cuantizado. QES se basa en dos innovaciones: (1) integra retroalimentación de error acumulado para preservar señales de gradiente de alta precisión, y (2) utiliza una reproducción de semilla sin estado para reducir el uso de memoria a niveles de inferencia de baja precisión. QES supera significativamente al método de ajuste fino de orden cero más avanzado en tareas de razonamiento aritmético, haciendo posible el ajuste fino directo para modelos cuantizados. Por lo tanto, abre la posibilidad de escalar LLMs completamente en el espacio cuantizado. El código fuente está disponible en https://github.com/dibbla/Quantized-Evolution-Strategies.
Presentamos scPilot, el primer marco sistemático para practicar el razonamiento nativo en ómicas: un modelo de lenguaje grande (LLM) conversa en lenguaje natural mientras inspecciona directamente datos de RNA-seq de células individuales y herramientas de bioinformática bajo demanda. scPilot convierte los análisis centrales de células individuales, es decir, la anotación de tipos celulares, la reconstrucción de trayectorias de desarrollo y la identificación de factores de transcripción diana, en problemas de razonamiento paso a paso que el modelo debe resolver, justificar y, cuando sea necesario, revisar con nueva evidencia. Para medir el progreso, publicamos scBench, un conjunto de 9 conjuntos de datos curados por expertos y evaluadores que valoran fielmente la capacidad de razonamiento nativo en ómicas de scPilot con respecto a varios LLM. Los experimentos con o1 muestran que el razonamiento nativo en ómicas iterativo aumenta la precisión promedio en un 11% para la anotación de tipos celulares, y Gemini-2.5-Pro reduce la distancia de edición de grafos de trayectoria en un 30% frente al prompting de una sola vez, mientras genera trazas de razonamiento transparentes que explican la ambigüedad de los genes marcadores y la lógica regulatoria. Al fundamentar los LLM en datos de ómicas crudos, scPilot permite análisis de células individuales auditables, interpretables y diagnósticamente informativos. El código, los datos y el paquete están disponibles en https://github.com/maitrix-org/scPilot.
La cartografía individual de copas de árboles es fundamental para tareas como el mantenimiento de inventarios arbóreos urbanos y el monitoreo de la salud forestal, lo cual nos ayuda a comprender y cuidar nuestro medio ambiente. Sin embargo, la separación automática de las copas entre sí en imágenes aéreas es un desafío debido a factores como la textura y los solapamientos parciales de las copas. En este estudio, presentamos un método para entrenar modelos de aprendizaje profundo que segmentan y separan árboles individuales a partir de imágenes RGB y multiespectrales, utilizando pseudoetiquetas derivadas de datos de escaneo láser aéreo (ALS). Nuestro estudio demuestra que estas pseudoetiquetas derivadas de ALS pueden mejorarse utilizando un modelo de segmentación de instancias de cero disparos, el Segment Anything Model 2 (SAM 2). Nuestro método ofrece una forma de obtener anotaciones de entrenamiento específicas del dominio para modelos basados en imágenes ópticas sin ningún costo de anotación manual, lo que da como resultado modelos de segmentación que superan a los modelos disponibles diseñados para despliegue en dominios generales para la misma tarea.
La identificación de commits que corrigen vulnerabilidades correspondientes a CVEs divulgados es esencial para el mantenimiento seguro del software, pero sigue siendo un desafío a gran escala, ya que los repositorios grandes contienen millones de commits, de los cuales solo una pequeña fracción aborda problemas de seguridad. Los enfoques automatizados existentes, incluidas las técnicas tradicionales de aprendizaje automático y los métodos recientes basados en modelos de lenguaje grande (LLM), a menudo sufren de compensaciones deficientes entre precisión y exhaustividad. Frecuentemente evaluados en commits muestreados aleatoriamente, descubrimos que subestiman sustancialmente la dificultad del mundo real, donde los commits candidatos ya son relevantes para la seguridad y muy similares entre sí. Proponemos Favia, un marco forense basado en agentes para la identificación de correcciones de vulnerabilidades que combina la clasificación escalable de candidatos con un razonamiento semántico profundo e iterativo. Favia emplea primero una etapa eficiente de clasificación para reducir el espacio de búsqueda de commits. Luego, cada commit es evaluado rigurosamente utilizando un agente de LLM basado en ReAct. Al proporcionar al agente un repositorio pre-commit como entorno, junto con herramientas especializadas, el agente intenta localizar componentes vulnerables, navega la base de código y establece una alineación causal entre los cambios de código y las causas raíz de la vulnerabilidad. Este proceso basado en evidencias permite la identificación robusta de correcciones indirectas, multiarchivo y no triviales que eluden los métodos de pasada única o basados en similitud. Evaluamos Favia en CVEVC, un conjunto de datos a gran escala que creamos y que comprende más de 8 millones de commits de 3.708 repositorios del mundo real, y demostramos que supera consistentemente los baselines tradicionales y basados en LLM más avanzados bajo una selección realista de candidatos, logrando las compensaciones más sólidas entre precisión y exhaustividad y los puntajes F1 más altos.
La identificación de idiomas (LID) es un paso esencial en la construcción de conjuntos de datos multilingües de alta calidad a partir de datos web. Las herramientas de LID existentes (como OpenLID o GlotLID) a menudo tienen dificultades para identificar lenguas estrechamente relacionadas y para distinguir lenguaje natural válido del ruido, lo que contamina los subconjuntos específicos de cada idioma, especialmente para lenguas de bajos recursos. En este trabajo extendemos el clasificador OpenLID añadiendo más datos de entrenamiento, fusionando grupos problemáticos de variantes lingüísticas e introduciendo una etiqueta especial para marcar ruido. Denominamos a este sistema extendido OpenLID-v3 y lo evaluamos comparándolo con GlotLID en varios puntos de referencia. Durante el desarrollo, nos centramos en tres grupos de lenguas estrechamente relacionadas (bosnio, croata y serbio; variedades romances del norte de Italia y el sur de Francia; y lenguas escandinavas) y contribuimos con nuevos conjuntos de datos de evaluación donde los existentes son inadecuados. Encontramos que los enfoques de conjunto mejoran la precisión pero también reducen sustancialmente la cobertura para lenguas de bajos recursos. OpenLID-v3 está disponible en https://huggingface.co/HPLT/OpenLID-v3.