Artículos de investigación en IA seleccionados diariamente con traducciones
La preparación de datos tiene como objetivo eliminar el ruido de los conjuntos de datos brutos, descubrir relaciones entre conjuntos de datos y extraer información valiosa de ellos, lo cual es esencial para una amplia gama de aplicaciones centradas en los datos. Impulsada por (i) la creciente demanda de datos listos para su uso en aplicaciones (por ejemplo, para análisis, visualización, toma de decisiones), (ii) las técnicas de LLM cada vez más potentes, y (iii) la aparición de infraestructuras que facilitan la construcción flexible de agentes (por ejemplo, utilizando Databricks Unity Catalog), los métodos potenciados por LLM se están convirtiendo rápidamente en un paradigma transformador y potencialmente dominante para la preparación de datos. Mediante la investigación de cientos de trabajos de literatura reciente, este artículo presenta una revisión sistemática de este panorama en evolución, centrándose en el uso de técnicas de LLM para preparar datos para diversas tareas posteriores. Primero, caracterizamos el cambio de paradigma fundamental, desde las canalizaciones basadas en reglas y específicas del modelo hasta los flujos de trabajo de preparación impulsados por instrucciones (prompts), conscientes del contexto y agentivos. A continuación, introducimos una taxonomía centrada en tareas que organiza el campo en tres tareas principales: limpieza de datos (por ejemplo, estandarización, procesamiento de errores, imputación), integración de datos (por ejemplo, coincidencia de entidades, coincidencia de esquemas) y enriquecimiento de datos (por ejemplo, anotación de datos, perfilado). Para cada tarea, examinamos técnicas representativas y destacamos sus respectivas fortalezas (por ejemplo, mejora de la generalización, comprensión semántica) y limitaciones (por ejemplo, el costo prohibitivo de escalar los LLM, las alucinaciones persistentes incluso en agentes avanzados, el desajuste entre métodos avanzados y evaluación débil). Además, analizamos conjuntos de datos y métricas de evaluación comúnmente utilizados (la parte empírica). Finalmente, discutimos los desafíos de investigación abiertos y esbozamos una hoja de ruta prospectiva que enfatiza sistemas escalables de LLM y datos, diseños basados en principios para flujos de trabajo agentivos confiables y protocolos de evaluación robustos.
Recientemente, la frontera de las capacidades de los Modelos de Lenguaje a Gran Escala (LLM) ha evolucionado desde la generación de código en una sola interacción hacia la ingeniería de software agencial, un paradigma en el que los modelos navegan, editan y prueban repositorios complejos de forma autónoma. Si bien los métodos de post-entrenamiento se han convertido en el enfoque *de facto* para los agentes de código, el **entrenamiento intermedio agencial** (*mid-training*, MT) —es decir, el entrenamiento intermedio con datos a gran escala que reflejan flujos de trabajo agenciales auténticos— permanece críticamente poco explorado debido a los sustanciales requisitos de recursos, a pesar de ofrecer un camino más escalable para inculcar comportamientos agenciales fundamentales que depender únicamente del costoso aprendizaje por refuerzo. Un desafío central para materializar un entrenamiento intermedio agencial efectivo es el desajuste de distribución entre los datos de entrenamiento estáticos y el entorno dinámico y rico en retroalimentación del desarrollo real. Para abordarlo, presentamos un estudio sistemático del entrenamiento intermedio agencial, estableciendo tanto los principios de síntesis de datos como la metodología de entrenamiento para un desarrollo de agentes efectivo a escala. Es central en nuestro enfoque el concepto de **datos nativos para agentes** —una supervisión que comprende dos tipos complementarios de trayectorias: las **trayectorias contextualmente nativas**, que preservan el flujo completo de información que experimenta un agente, ofreciendo una amplia cobertura y diversidad; y las **trayectorias ambientalmente nativas**, recopiladas desde repositorios ejecutables donde las observaciones surgen de invocaciones reales de herramientas y ejecuciones de pruebas, proporcionando profundidad y autenticidad en la interacción. Verificamos las capacidades agenciales del modelo en `SWE-Bench Verified`. Demostramos nuestra superioridad sobre la receta de entrenamiento intermedio anterior para ingeniería de software abierto, `Kimi-Dev`, bajo dos configuraciones de post-entrenamiento con un modelo base y un andamiaje agencial alineados, mientras utilizamos menos de la mitad de los tokens de entrenamiento intermedio (73.1B). Además de la ventaja relativa, nuestros modelos de mejor rendimiento de 32B y 72B alcanzan tasas de resolución de **56.1%** y **58.5%**, respectivamente, las cuales son ...
Los recientes avances en generación de vídeo han producido modelos capaces de sintetizar contenido visual asombroso a partir de simples indicaciones de texto. Sin embargo, estos modelos tienen dificultades para generar narrativas largas y coherentes a partir de conceptos de alto nivel como el diálogo, revelando una "brecha semántica" entre una idea creativa y su ejecución cinematográfica. Para salvar esta brecha, presentamos un novedoso marco de trabajo agencial integral para la generación de vídeo cinematográfico a partir de diálogos. El elemento central de nuestro marco es ScripterAgent, un modelo entrenado para traducir diálogos generales en un guion cinematográfico detallado y ejecutable. Para posibilitar esto, construimos ScriptBench, un nuevo benchmark a gran escala con un contexto multimodal enriquecido, anotado mediante una pipeline guiada por expertos. El guion generado luego orienta a DirectorAgent, que orquesta modelos de vídeo de última generación utilizando una estrategia de generación continua entre escenas para garantizar la coherencia a largo plazo. Nuestra evaluación integral, que incluye un CriticAgent potenciado por IA y una nueva métrica de Alineación Visual-Guion (VSA), muestra que nuestro marco mejora significativamente la fidelidad al guion y la fidelidad temporal en todos los modelos de vídeo probados. Además, nuestro análisis revela una compensación crucial en los modelos SOTA actuales entre el espectáculo visual y la adherencia estricta al guion, proporcionando información valiosa para el futuro de la cinematografía automatizada.
Si bien los datos sintéticos han demostrado ser efectivos para mejorar el razonamiento científico en el dominio textual, el razonamiento multimodal sigue limitado por la dificultad de sintetizar imágenes científicamente rigurosas. Los modelos existentes de Texto a Imagen (T2I) a menudo producen resultados visualmente plausibles pero científicamente incorrectos, lo que genera una divergencia lógico-visual persistente que limita su valor para el razonamiento posterior. Motivados por los recientes avances en modelos T2I de próxima generación, realizamos un estudio sistemático de la síntesis de imágenes científicas a través de los paradigmas de generación, evaluación y uso posterior. Analizamos tanto la generación directa basada en píxeles como la síntesis programática, y proponemos ImgCoder, un marco impulsado por la lógica que sigue un flujo de trabajo explícito de "comprender - planificar - codificar" para mejorar la precisión estructural. Para evaluar rigurosamente la corrección científica, presentamos SciGenBench, que evalúa las imágenes generadas en función de su utilidad informativa y validez lógica. Nuestra evaluación revela modos de fallo sistemáticos en los modelos basados en píxeles y destaca una compensación fundamental entre expresividad y precisión. Finalmente, demostramos que el ajuste fino de Modelos Multimodales Grandes (LMM) en imágenes científicas sintéticas rigurosamente verificadas produce ganancias consistentes en el razonamiento, con tendencias de escalado potenciales análogas al dominio textual, validando la síntesis científica de alta fidelidad como un camino viable para desbloquear capacidades masivas de razonamiento multimodal.
¿Puede un modelo aprender a escapar de su propia meseta de aprendizaje? Los métodos de aprendizaje por refuerzo para el ajuste fino de modelos grandes de razonamiento se estancan en conjuntos de datos con tasas de éxito iniciales bajas y, por lo tanto, con poca señal de entrenamiento. Investigamos una cuestión fundamental: ¿Puede un LLM preentrenado aprovechar el conocimiento latente para generar un currículo automatizado para problemas que no puede resolver? Para explorarlo, diseñamos SOAR: un marco de auto-mejora diseñado para sacar a la luz estas señales pedagógicas mediante meta-RL. Una copia del modelo que actúa como profesor propone problemas sintéticos a una copia que actúa como estudiante, y es recompensada por la mejora de este último en un pequeño subconjunto de problemas difíciles. De manera crítica, SOAR basa el currículo en el progreso medido del estudiante en lugar de en recompensas proxy intrínsecas. Nuestro estudio sobre los subconjuntos más difíciles de benchmarks matemáticos (0/128 de éxito) revela tres hallazgos principales. En primer lugar, demostramos que es posible realizar un meta-RL de dos niveles que desbloquee el aprendizaje bajo recompensas binarias y dispersas, aprovechando una capacidad latente de los modelos preentrenados para generar peldaños útiles. En segundo lugar, las recompensas basadas en el progreso superan a los esquemas de recompensa intrínseca utilizados en el auto-juego previo de LLM, evitando de forma fiable la inestabilidad y los modos de colapso de la diversidad que estos suelen exhibir. En tercer lugar, el análisis de las preguntas generadas revela que la calidad estructural y la buena formulación son más críticas para el progreso del aprendizaje que la corrección de la solución. Nuestros resultados sugieren que la capacidad de generar peldaños útiles no requiere la habilidad preexistente de resolver realmente los problemas difíciles, allanando un camino fundamentado para escapar de las mesetas de razonamiento sin necesidad de datos adicionales seleccionados manualmente.
La complejidad cuadrática de los mecanismos de atención estándar representa un cuello de botella significativo para la escalabilidad de los modelos de lenguaje grandes (LLM) en escenarios de contexto largo. Si bien las estrategias de atención híbrida que combinan atención dispersa y completa dentro de un mismo modelo ofrecen una solución viable, estas suelen emplear ratios de cómputo estáticos (es decir, proporciones fijas de atención dispersa versus completa) y no logran adaptarse a las diversas sensibilidades de dispersión de las tareas posteriores durante la inferencia. Para abordar este problema, proponemos Elastic Attention, que permite al modelo ajustar dinámicamente su dispersión general en función de la entrada. Esto se logra mediante la integración de un Enrutador de Atención ligero en el modelo preentrenado existente, el cual asigna dinámicamente cada cabeza de atención a diferentes modos de cómputo. Con solo 12 horas de entrenamiento en 8 GPUs A800, nuestro método permite a los modelos alcanzar tanto un alto rendimiento como una inferencia eficiente. Experimentos en tres benchmarks de contexto largo con modelos de lenguaje ampliamente utilizados demuestran la superioridad de nuestro método.
El campo de la generación de imágenes se encuentra actualmente bifurcado en modelos autorregresivos (AR) que operan sobre *tokens* discretos y modelos de difusión que utilizan espacios latentes continuos. Esta división, arraigada en la distinción entre VQ-VAEs y VAEs, dificulta la modelización unificada y la evaluación comparativa justa. La Cuantificación Escalar Finita (FSQ) ofrece un puente teórico, aunque la FSQ estándar adolece de un defecto crítico: su cuantificación de intervalos iguales puede provocar un colapso de las activaciones. Este desajuste obliga a una disyuntiva entre la fidelidad de reconstrucción y la eficiencia informativa. En este trabajo, resolvemos este dilema simplemente reemplazando la función de activación en la FSQ original por un mapeo de ajuste de distribución para imponer una distribución previa uniforme. Denominada iFSQ, esta estrategia sencilla requiere solo una línea de código y, sin embargo, garantiza matemáticamente tanto una utilización óptima de los intervalos de cuantificación como una precisión de reconstrucción superior. Utilizando iFSQ como punto de referencia controlado, descubrimos dos hallazgos clave: (1) El equilibrio óptimo entre representaciones discretas y continuas se sitúa en aproximadamente 4 bits por dimensión. (2) Bajo idénticas restricciones de reconstrucción, los modelos AR exhiben una convergencia inicial rápida, mientras que los modelos de difusión alcanzan un límite de rendimiento superior, lo que sugiere que el ordenamiento secuencial estricto puede limitar los límites superiores de la calidad de generación. Finalmente, extendemos nuestro análisis adaptando el Alineamiento de Representaciones (REPA) a modelos AR, dando lugar a LlamaGen-REPA. El código está disponible en https://github.com/Tencent-Hunyuan/iFSQ.
Si bien la evaluación de agentes ha evolucionado hacia tareas de horizonte largo, la mayoría de los puntos de referencia aún enfatizan el razonamiento local a nivel de paso, en lugar de la optimización restringida global (por ejemplo, presupuestos de tiempo y financieros) que exige una genuina capacidad de planificación. Paralelamente, los puntos de referencia existentes para la planificación con LLM representan insuficientemente la recopilación activa de información y las restricciones locales de granularidad fina típicas de entornos del mundo real. Para abordar esto, presentamos DeepPlanning, un punto de referencia desafiante para la planificación práctica de agentes a largo plazo. Este incluye tareas de planificación de viajes de varios días y compras de múltiples productos que requieren adquisición proactiva de información, razonamiento restringido local y optimización restringida global. Las evaluaciones en DeepPlanning muestran que incluso los LLMs agenticos más avanzados tienen dificultades con estos problemas, destacando la importancia de patrones de razonamiento explícito confiables y el uso paralelo de herramientas para lograr mejores compensaciones entre efectividad y eficiencia. El análisis de errores señala además direcciones prometedoras para mejorar los LLMs agenticos en horizontes de planificación largos. Liberamos el código y los datos como código abierto para apoyar la investigación futura.
Los generadores de vídeo modernos aún presentan dificultades para representar dinámicas físicas complejas, a menudo sin alcanzar un realismo físico satisfactorio. Los enfoques existentes abordan este problema mediante verificadores externos o entrenamiento adicional con datos aumentados, lo cual es computacionalmente costoso y sigue siendo limitado para capturar movimientos detallados. En este trabajo, presentamos el muestreo de vídeo auto-refinado, un método simple que utiliza un generador de vídeo preentrenado en conjuntos de datos a gran escala como su propio refinador. Al interpretar el generador como un autoencoder de eliminación de ruido, permitimos un refinamiento iterativo interno durante la inferencia sin necesidad de verificadores externos ni entrenamiento adicional. Además, introducimos una estrategia de refinamiento consciente de la incertidumbre que refina selectivamente las regiones basándose en la auto-consistencia, lo que evita artefactos causados por un refinamiento excesivo. Los experimentos con generadores de vídeo de última generación demuestran mejoras significativas en la coherencia del movimiento y la alineación física, logrando una preferencia humana superior al 70% en comparación con el muestreador por defecto y el muestreador basado en guías.
La percepción visual espacial es un requisito fundamental en aplicaciones del mundo físico como la conducción autónoma y la manipulación robótica, impulsada por la necesidad de interactuar con entornos 3D. La captura de profundidad métrica alineada a píxel mediante cámaras RGB-D sería la forma más viable, pero suele enfrentar obstáculos planteados por las limitaciones del hardware y condiciones de imagen desafiantes, especialmente en presencia de superficies especulares o sin textura. En este trabajo, argumentamos que las imprecisiones de los sensores de profundidad pueden verse como señales "enmascaradas" que reflejan inherentemente ambigüedades geométricas subyacentes. Basándonos en esta motivación, presentamos LingBot-Depth, un modelo de completado de profundidad que aprovecha el contexto visual para refinar mapas de profundidad mediante el modelado de profundidad enmascarada e incorpora un pipeline automatizado de curación de datos para un entrenamiento escalable. Es alentador observar que nuestro modelo supera a las cámaras RGB-D de primer nivel en términos de precisión de profundidad y cobertura de píxeles. Los resultados experimentales en una variedad de tareas posteriores sugieren además que LingBot-Depth ofrece una representación latente alineada a través de las modalidades RGB y de profundidad. Liberamos el código, el punto de control y 3M pares RGB-profundidad (incluyendo 2M de datos reales y 1M de datos simulados) para la comunidad de percepción espacial.
Este informe presenta VibeVoice-ASR, un marco de comprensión del habla de propósito general construido sobre VibeVoice, diseñado para abordar los desafíos persistentes de fragmentación de contexto y complejidad de múltiples interlocutores en audio de larga duración (por ejemplo, reuniones, podcasts) que persisten a pesar de los avances recientes en el reconocimiento del habla de formato corto. A diferencia de los enfoques tradicionales en pipeline que dependen de la división del audio en fragmentos, VibeVoice-ASR admite el procesamiento en una sola pasada para audios de hasta 60 minutos. Unifica el Reconocimiento Automático del Habla, la Diarización de Locutores y la Marcación Temporal en una única tarea de generación de extremo a extremo. Además, VibeVoice-ASR es compatible con más de 50 idiomas, no requiere una configuración de idioma explícita y maneja de forma nativa el cambio de código dentro de las emisiones y entre ellas. Asimismo, introducimos un mecanismo de inyección de contexto basado en prompts que permite a los usuarios suministrar contexto personalizado, mejorando significativamente la precisión en terminología específica de dominio y la desambiguación de caracteres polifónicos.
La llegada de asistentes de IA personales siempre activos, impulsada por dispositivos portátiles de uso continuo como las gafas inteligentes, exige un nuevo nivel de comprensión contextual que va más allá de eventos aislados y breves para abarcar el flujo continuo y longitudinal del video egocéntrico. Lograr esta visión requiere avances en la comprensión de video a largo plazo, donde los sistemas deben interpretar y recordar información visual y auditiva que abarca días o incluso semanas. Los métodos existentes, incluidos los grandes modelos de lenguaje y la generación aumentada por recuperación, están limitados por ventanas de contexto reducidas y carecen de la capacidad para realizar razonamientos compositivos y de múltiples saltos sobre flujos de video muy extensos. En este trabajo, abordamos estos desafíos mediante EGAgent, un marco agéntico mejorado centrado en grafos de escena de entidades, que representan personas, lugares, objetos y sus relaciones a lo largo del tiempo. Nuestro sistema dota a un agente de planificación con herramientas para búsqueda estructurada y razonamiento sobre estos grafos, así como capacidades híbridas de búsqueda visual y auditiva, permitiendo un razonamiento detallado, multimodal y temporalmente coherente. Los experimentos en los conjuntos de datos EgoLifeQA y Video-MME (Long) demuestran que nuestro método alcanza un rendimiento state-of-the-art en EgoLifeQA (57.5%) y un rendimiento competitivo en Video-MME (Long) (74.1%) para tareas complejas de comprensión de video longitudinal.
La percepción e interacción en el mundo real son inherentemente multimodales, abarcando no solo el lenguaje sino también la visión y el habla, lo que motiva el desarrollo de MLLMs "Omni" que admiten tanto entradas como salidas multimodales. Si bien ha surgido una secuencia de MLLMs omni, la mayoría de los sistemas existentes aún dependen de componentes expertos adicionales para lograr la generación multimodal, lo que limita la simplicidad del entrenamiento e inferencia unificados. El modelado autorregresivo (AR), con un único flujo de tokens, un único objetivo de siguiente token y un único decodificador, es una base elegante y escalable en el dominio textual. Motivados por esto, presentamos AR-Omni, un modelo unificado de cualquiera-a-cualquiera en el paradigma autorregresivo sin ningún decodificador experto. AR-Omni admite la generación autorregresiva de texto e imágenes, así como la generación de habla en streaming, todo bajo un único decodificador Transformer. Además, abordamos tres problemas prácticos en el modelado AR unificado: el desequilibrio de modalidades mediante la reponderación de pérdidas consciente de la tarea, la fidelidad visual mediante una pérdida de alineación perceptiva ligera a nivel de tokens para los tokens de imagen, y las compensaciones entre estabilidad y creatividad mediante un mecanismo de decodificación de estados finitos. Empíricamente, AR-Omni logra una alta calidad en las tres modalidades manteniéndose en tiempo real, alcanzando un factor de tiempo real de 0.88 para la generación de habla.
Los modelos de incrustación de propósito general han demostrado un alto rendimiento en la recuperación de texto, pero siguen siendo subóptimos para la recuperación de tablas, donde el contenido altamente estructurado proviene compresión semántica y desajustes entre consultas y tablas. Los métodos recientes de aumento de recuperación basados en LLM mitigan este problema generando consultas sintéticas, pero a menudo dependen de una selección heurística de tablas parciales y rara vez aprovechan estas consultas sintéticas como supervisión para mejorar el modelo de incrustación. Presentamos CGPT, un marco de entrenamiento que mejora la recuperación de tablas mediante supervisión generada por LLM. CGPT construye tablas parciales semánticamente diversas agrupando instancias de tablas mediante K-means y muestreando entre clusters para ampliar la cobertura semántica. Un LLM genera entonces consultas sintéticas para estas tablas parciales, que se utilizan en un ajuste fino contrastivo con ejemplos negativos difíciles para refinar el modelo de incrustación. Los experimentos en cuatro benchmarks públicos (MimoTable, OTTQA, FetaQA y E2E-WTQ) muestran que CGPT supera consistentemente a los baselines de recuperación, incluido QGpT, con una mejora promedio en R@1 del 16.54 por ciento. En un entorno unificado de corpus multidisciplinar, CGPT demuestra además una fuerte generalización cross-dominio y mantiene su eficacia incluso cuando se utilizan LLM más pequeños para la generación de consultas sintéticas. Estos resultados indican que la construcción de tablas parciales guiada semánticamente, combinada con el entrenamiento contrastivo a partir de supervisión generada por LLM, proporciona un paradigma eficaz y escalable para la recuperación de tablas a gran escala. Nuestro código está disponible en https://github.com/yumeow0122/CGPT.
Los agentes de LLM generalistas suelen ser post-entrenados en un conjunto reducido de entornos, pero se despliegan en dominios mucho más amplios y no vistos. En este trabajo, investigamos el desafío del post-entrenamiento de agentes cuando los dominios de prueba finales son desconocidos. Específicamente, analizamos qué propiedades de los entornos de aprendizaje por refuerzo (RL) y qué decisiones de modelado tienen la mayor influencia en el rendimiento fuera del dominio. Primero, identificamos dos ejes del entorno que se correlacionan fuertemente con la generalización cruzada de dominios: (i) la riqueza de información del estado, es decir, la cantidad de información que el agente debe procesar a partir del estado, y (ii) la complejidad de planificación, estimada mediante la alcanzabilidad de objetivos y la longitud de la trayectoria bajo una política base. Cabe destacar que el realismo del dominio y la similitud a nivel textual no son los factores principales; por ejemplo, el dominio simple de mundo de cuadrícula Sokoban conduce a una generalización aún más fuerte en SciWorld que el más realista ALFWorld. Motivados por estos hallazgos, demostramos además que simplemente aumentar la riqueza de información del estado ya puede mejorar eficazmente la robustez cruzada de dominios. Proponemos una técnica de aleatorización, que es de bajo costo y ampliamente aplicable: añadir pequeñas cantidades de características distractoras irrelevantes para el objetivo al estado para enriquecerlo sin alterar la tarea. Más allá de las propiedades del entorno, también examinamos varias decisiones de modelado: (a) el precalentamiento con SFT o el entrenamiento intermedio ayuda a prevenir el olvido catastrófico durante el RL, pero socava la generalización a dominios que no se incluyen en la mezcla de datos del entrenamiento intermedio; y (b) activar el pensamiento paso a paso durante el RL, aunque no siempre mejora el rendimiento dentro del dominio, juega un papel crucial en la preservación de la generalización.
Los datos de series temporales son ubicuos en escenarios del mundo real y cruciales para aplicaciones críticas que van desde la gestión energética hasta el control de tráfico. En consecuencia, la capacidad de razonar sobre series temporales es una habilidad fundamental para los modelos generalistas a la hora de resolver problemas prácticos. Sin embargo, esta dimensión está notablemente ausente en los puntos de referencia existentes para modelos generalistas. Para cerrar esta brecha, presentamos TSRBench, un benchmark multimodal integral diseñado para evaluar exhaustivamente el espectro completo de capacidades de razonamiento sobre series temporales. TSRBench presenta: i) un conjunto diverso de 4125 problemas de 14 dominios, categorizados en 4 dimensiones principales: Percepción, Razonamiento, Predicción y Toma de Decisiones; ii) 15 tareas dentro de las 4 dimensiones que evalúan capacidades de razonamiento esenciales (por ejemplo, razonamiento numérico). Mediante experimentos exhaustivos, evaluamos más de 30 modelos de lenguaje grandes (LLM), modelos de lenguaje visual (VLM) y modelos de lenguaje grandes para series temporales (TSLLM) líderes, tanto propietarios como de código abierto, dentro de TSRBench. Nuestros hallazgos revelan que: i) las leyes de escalado se mantienen para la percepción y el razonamiento pero se rompen para la predicción; ii) un razonamiento sólido no garantiza una previsión precisa consciente del contexto, lo que indica un desacoplamiento entre la comprensión semántica y la predicción numérica; y iii) a pesar de la naturaleza complementaria de las representaciones textuales y visuales de las series temporales como entradas, los modelos multimodales actuales no logran fusionarlas efectivamente para obtener ganancias de rendimiento recíprocas. TSRBench proporciona una plataforma de evaluación estandarizada que no solo destaca los desafíos existentes, sino que también ofrece perspectivas valiosas para avanzar en el desarrollo de modelos generalistas. Nuestro código y dataset están disponibles en https://tsrbench.github.io/.
Los modelos de generación de vídeo a gran escala han demostrado una coherencia física emergente, posicionándolos como posibles modelos del mundo. Sin embargo, persiste una brecha entre las arquitecturas de vídeo contemporáneas "sin estado" y las teorías clásicas de modelos del mundo centradas en el estado. Este trabajo salva esta brecha proponiendo una taxonomía novedosa centrada en dos pilares: Construcción del Estado y Modelado de la Dinámica. Clasificamos la construcción del estado en paradigmas implícitos (gestión del contexto) y paradigmas explícitos (compresión latente), mientras que el modelado de la dinámica se analiza a través de la integración de conocimiento y la reformulación arquitectónica. Además, abogamos por una transición en la evaluación, desde la fidelidad visual hacia criterios funcionales, que pongan a prueba la persistencia física y el razonamiento causal. Concluimos identificando dos fronteras críticas: mejorar la persistencia mediante memoria basada en datos y fidelidad comprimida, y avanzar en la causalidad mediante el desacoplamiento de factores latentes y la integración de conocimientos previos de razonamiento. Al abordar estos desafíos, el campo puede evolucionar desde la generación de vídeos visualmente plausibles hacia la construcción de simuladores del mundo robustos y de propósito general.
La generación de vídeo sirve como piedra angular para construir modelos del mundo, donde la inferencia contextual multimodal constituye la prueba definitoria de capacidad. Con este fin, presentamos SkyReels-V3, un modelo de generación de vídeo condicional, construido sobre un marco unificado de aprendizaje multimodal en contexto con Transformers de difusión. El modelo SkyReels-V3 admite tres paradigmas generativos principales dentro de una única arquitectura: síntesis de imágenes de referencia a vídeo, extensión de vídeo a vídeo y generación de vídeo guiada por audio. (i) El modelo de imágenes de referencia a vídeo está diseñado para producir vídeos de alta fidelidad con una fuerte preservación de la identidad del sujeto, coherencia temporal y consistencia narrativa. Para mejorar la adherencia a la referencia y la estabilidad compositiva, diseñamos un pipeline integral de procesamiento de datos que aprovecha el emparejamiento entre fotogramas, la edición de imágenes y la reescritura semántica, mitigando eficazmente los artefactos de copia y pegado. Durante el entrenamiento, se emplea una estrategia híbrida de imagen y vídeo combinada con una optimización conjunta multirresolución para mejorar la generalización y robustez en diversos escenarios. (ii) El modelo de extensión de vídeo integra el modelado de consistencia espacio-temporal con la comprensión de vídeo a gran escala, permitiendo tanto la continuación continua de una sola toma como el cambio inteligente entre múltiples tomas con patrones cinematográficos profesionales. (iii) El modelo de avatar parlante admite la generación de vídeo condicionada por audio a nivel de minutos mediante el entrenamiento de patrones de inserción de primer y último fotograma y la reconstrucción de paradigmas de inferencia de fotogramas clave. Sobre la base de garantizar la calidad visual, se ha optimizado la sincronización de audio y vídeo. Evaluaciones exhaustivas demuestran que SkyReels-V3 logra un rendimiento state-of-the-art o cercano al state-of-the-art en métricas clave que incluyen calidad visual, seguimiento de instrucciones y métricas de aspectos específicos, aproximándose a los sistemas líderes de código cerrado. Github: https://github.com/SkyworkAI/SkyReels-V3.
La recuperación de tablas es la tarea de recuperar las tablas más relevantes de corpus a gran escala dadas consultas en lenguaje natural. Sin embargo, las discrepancias estructurales y semánticas entre el texto no estructurado y las tablas estructuradas hacen que la alineación de *embeddings* sea particularmente desafiante. Métodos recientes como QGpT intentan enriquecer la semántica de las tablas generando consultas sintéticas, pero aún dependen de un muestreo parcial de tablas tosco y de estrategias de fusión simples, lo que limita la diversidad semántica y dificulta una alineación efectiva entre consultas y tablas. Proponemos STAR (*Semantic Table Representation*), un marco de trabajo ligero que mejora la representación semántica de tablas mediante agrupamiento semántico y fusión ponderada. STAR aplica primero un agrupamiento K-means consciente de los encabezados para agrupar filas semánticamente similares y selecciona instancias centroides representativas para construir una tabla parcial diversa. Luego, genera consultas sintéticas específicas por clúster para cubrir de manera integral el espacio semántico de la tabla. Finalmente, STAR emplea estrategias de fusión ponderada para integrar los *embeddings* de tablas y consultas, permitiendo una alineación semántica de grano fino. Este diseño permite a STAR capturar información complementaria de fuentes estructuradas y textuales, mejorando la expresividad de las representaciones tabulares. Experimentos en cinco puntos de referencia muestran que STAR logra un Recall consistentemente más alto que QGpT en todos los conjuntos de datos, demostrando la efectividad del agrupamiento semántico y la fusión ponderada adaptativa para una representación robusta de tablas. Nuestro código está disponible en https://github.com/adsl135789/STAR.
Al aprovechar la destilación multi-maestro, los *backbones* visuales aglomerativos proporcionan un modelo estudiantil unificado que retiene y mejora las capacidades distintivas de múltiples maestros. En este informe técnico, describimos la versión más reciente de la familia de modelos C-RADIO, C-RADIOv4, que se basa en el diseño de AM-RADIO/RADIOv2.5, ofreciendo mejoras significativas en tareas *downstream* clave con la misma complejidad computacional. Publicamos las variantes del modelo -SO400M (412M parámetros) y -H (631M), ambas entrenadas con un conjunto actualizado de maestros: SigLIP2, DINOv3 y SAM3. Además de las mejoras en las métricas principales y las nuevas capacidades derivadas de imitar a SAM3, la familia de modelos C-RADIOv4 mejora aún más el soporte para cualquier resolución, recupera la opción ViTDet para una eficiencia drásticamente mejorada en alta resolución, y se distribuye con una licencia permisiva.
Los agentes de búsqueda profunda, diseñados para responder preguntas complejas que requieren razonamiento a través de múltiples documentos, pueden acelerar significativamente el proceso de búsqueda de información. La recopilación de anotaciones humanas para esta aplicación resulta prohibitivamente costosa debido a las trayectorias de exploración largas y complejas. Proponemos un pipeline agentico que genera automáticamente pares pregunta-respuesta de búsqueda profunda de alta calidad y dificultad controlada para un corpus dado y un nivel de dificultad objetivo. Nuestro pipeline, SAGE, consta de un generador de datos que propone pares de preguntas y respuestas, y un agente de búsqueda que intenta resolver la pregunta generada y proporciona retroalimentación de ejecución al generador de datos. Ambos componentes interactúan durante múltiples rondas para refinar iterativamente los pares pregunta-respuesta hasta que satisfacen el nivel de dificultad objetivo. Nuestra evaluación intrínseca muestra que SAGE genera preguntas que requieren diversas estrategias de razonamiento, mientras aumenta significativamente la corrección y dificultad de los datos generados. Nuestra evaluación extrínseca demuestra una mejora de rendimiento relativa de hasta el 23% en benchmarks populares de búsqueda profunda al entrenar agentes con nuestros datos sintéticos. Experimentos adicionales muestran que los agentes entrenados con nuestros datos pueden adaptarse de la recuperación en corpus fijo a la Búsqueda de Google durante la inferencia, sin necesidad de entrenamiento adicional.
Una de las características más convincentes de los modelos de lenguaje de difusión discreta global es su capacidad contextual bidireccional global. Sin embargo, los estudios existentes sobre difusión basada en bloques tienden a introducer *priors* autorregresivos que, si bien ofrecen beneficios, pueden hacer que los modelos pierdan esta coherencia global a nivel macro. Para recuperar la comprensión contextual global preservando las ventajas del paradigma semi-autorregresivo, proponemos Difusión en Difusión (*Diffusion in Diffusion*), un marco de "borrador-y-refinamiento" diseñado para superar los problemas de irreversibilidad y miopía inherentes a los modelos de difusión por bloques. Nuestro enfoque emplea primero la difusión por bloques para generar borradores rápidos usando bloques pequeños, y luego refina estos borradores mediante difusión bidireccional global con un campo receptivo bidireccional más amplio. Utilizamos el reenmascaramiento por confianza de instantáneas (*snapshot confidence remasking*) para identificar los *tokens* más críticos que requieren modificación, y aplicamos entrenamiento con escalas mixtas (*mix-scale training*) para expandir las capacidades globales del modelo de difusión por bloques. Los resultados empíricos demuestran que nuestro enfoque establece un nuevo referente para los modelos de difusión discreta en el conjunto de datos OpenWebText. Utilizando solo el 26% del presupuesto de ajuste fino de los modelos base, reducimos la perplejidad generativa de 25.7 a 21.9, reduciendo significativamente la brecha de rendimiento con los modelos autorregresivos.
La alineación de los Modelos de Lenguaje a Gran Escala (LLM) tiene como objetivo alinear las salidas con las preferencias humanas, y la alineación personalizada adapta aún más los modelos a usuarios individuales. Esto se basa en modelos de recompensa personalizados que capturan las preferencias específicas de cada usuario y proporcionan automáticamente retroalimentación individualizada. Sin embargo, el desarrollo de estos modelos enfrenta dos desafíos críticos: la escasez de retroalimentación de usuarios individuales y la necesidad de una adaptación eficiente a usuarios no vistos. Sostenemos que abordar estas limitaciones requiere un cambio de paradigma, pasando de ajustar datos para aprender preferencias de usuario a aprender el proceso de adaptación de preferencias. Para lograr esto, proponemos el Modelado de Recompensa Meta (MRM), que reformula el modelado de recompensa personalizado como un problema de meta-aprendizaje. Específicamente, representamos el modelo de recompensa de cada usuario como una combinación ponderada de funciones de recompensa base, y optimizamos la inicialización de estos pesos utilizando un marco estilo Meta-Aprendizaje Agnóstico al Modelo (MAML) para apoyar una adaptación rápida con retroalimentación limitada. Para garantizar robustez, introducimos el Objetivo de Personalización Robusta (RPO), que enfatiza más a los usuarios difíciles de aprender durante la meta-optimización. Experimentos exhaustivos en conjuntos de datos de preferencias personalizadas validan que MRM mejora la personalización con pocos ejemplos, incrementa la robustez del usuario y supera consistentemente a los métodos base.
Los sistemas de agentes convencionales a menudo enfrentan dificultades en entornos abiertos donde las distribuciones de tareas cambian continuamente y la supervisión externa es escasa. Su dependencia de conjuntos de herramientas estáticos o de entrenamiento fuera de línea no logra seguir estas dinámicas, dejando los límites de capacidad del sistema rígidos y desconocidos. Para abordar esto, proponemos el paradigma de Autoevolución In Situ. Este enfoque trata las interacciones secuenciales de tareas como un flujo continuo de experiencia, permitiendo que el sistema destile la retroalimentación de ejecución a corto plazo en capacidades reutilizables a largo plazo, sin acceso a etiquetas de verdad fundamental. Dentro de este marco, identificamos la evolución de herramientas como la vía crítica para la expansión de capacidades, la cual proporciona señales de retroalimentación binarias y verificables. En este marco, desarrollamos Yunjue Agent, un sistema que sintetiza, optimiza y reutiliza herramientas de manera iterativa para abordar desafíos emergentes. Para optimizar la eficiencia evolutiva, introducimos además una estrategia de Evolución por Lotes Paralelos. Las evaluaciones empíricas en cinco benchmarks diversos bajo una configuración de inicio desde cero demuestran ganancias significativas de rendimiento frente a líneas base propietarias. Adicionalmente, evaluaciones complementarias de inicio cálido confirman que el conocimiento general acumulado puede transferirse sin problemas a nuevos dominios. Finalmente, proponemos una nueva métrica para monitorear la convergencia evolutiva, que funciona como un análogo a la pérdida de entrenamiento en la optimización convencional. Liberamos nuestro código base, trazas del sistema y herramientas evolucionadas para facilitar futuras investigaciones en inteligencia resiliente y autoevolutiva.
A pesar de la creciente adopción de los grandes modelos de lenguaje (LLMs) en los flujos de trabajo de investigación científica, el soporte automatizado para la refutación académica, un paso crucial en la comunicación académica y la revisión por pares, sigue estando en gran medida poco explorado. Los enfoques existentes suelen depender de LLMs estándar o de pipelines simples, que tienen dificultades con la comprensión de contextos largos y a menudo no logran producir respuestas específicas y persuasivas. En este artículo, proponemos DRPG, un marco agéntico para la generación automática de refutaciones académicas que opera en cuatro pasos: Descomponer las revisiones en preocupaciones atómicas, Recuperar evidencia relevante del artículo, Planificar estrategias de refutación y Generar respuestas en consecuencia. Cabe destacar que el Planificador en DRPG supera el 98% de precisión en la identificación de la dirección de refutación más factible. Los experimentos con datos de conferencias de primer nivel demuestran que DRPG supera significativamente a los pipelines de refutación existentes y logra un rendimiento más allá del nivel humano promedio utilizando solo un modelo de 8B. Nuestro análisis demuestra además la eficacia del diseño del planificador y su valor para proporcionar sugerencias explicables y desde múltiples perspectivas. También mostramos que DRPG funciona bien en un entorno más complejo de múltiples rondas. Estos resultados destacan la efectividad de DRPG y su potencial para proporcionar contenido de refutación de alta calidad y apoyar la escalabilidad de las discusiones académicas. Los códigos de este trabajo están disponibles en https://github.com/ulab-uiuc/DRPG-RebuttalAgent.
Muchos modelos Visión-Lenguaje-Acción (VLA) aplanan los parches de imagen en una secuencia unidimensional de tokens, lo que debilita las pistas espaciales bidimensionales necesarias para una manipulación precisa. Presentamos IVRA, un método ligero que no requiere entrenamiento y que mejora la comprensión espacial explotando indicios de afinidad ya disponibles en el codificador visual incorporado del modelo, sin necesidad de ningún codificador externo o reentrenamiento. IVRA inyecta selectivamente estas señales de afinidad en una capa del modelo de lenguaje donde residen las características a nivel de instancia. Esta intervención en tiempo de inferencia realinea las interacciones de tokens visuales y preserva mejor la estructura geométrica mientras mantiene fijos todos los parámetros del modelo. Demostramos la generalidad de IVRA aplicándolo a diversas arquitecturas VLA (LLaRA, OpenVLA y FLOWER) en benchmarks de simulación que abarcan tanto manipulación 2D como 3D (VIMA y LIBERO) y en varias tareas con robots reales. En VIMA 2D, IVRA mejora el éxito promedio en un +4.2% sobre el baseline LLaRA en un régimen de pocos datos. En LIBERO 3D, produce ganancias consistentes sobre los baselines OpenVLA y FLOWER, incluyendo mejoras cuando la precisión del baseline está cerca de la saturación (del 96.3% al 97.1%). Todo el código y los modelos se publicarán abiertamente. Las visualizaciones están disponibles en: jongwoopark7978.github.io/IVRA
La transcripción precisa y la diarización de hablantes en las interacciones orales niño-adulto son cruciales para la investigación del desarrollo y clínica. Sin embargo, la anotación manual requiere mucho tiempo y es difícil de escalar. Los sistemas automatizados existentes suelen depender de pipelines en cascada de diarización de hablantes y reconocimiento de voz, lo que puede provocar una propagación de errores. Este artículo presenta un marco unificado de extremo a extremo que extiende la arquitectura codificador-decodificador de Whisper para modelar conjuntamente el ASR y la diarización de roles de hablante (niño/adulto). El enfoque propuesto integra: (i) un esquema de entrenamiento con salida serializada que emite etiquetas de hablante y marcas de tiempo de inicio/fin, (ii) un cabezal de diarización ligero a nivel de *frame* que mejora las representaciones codificadoras discriminativas de hablantes, (iii) una supresión de silencios guiada por diarización para una mejor precisión temporal, y (iv) un procedimiento de decodificación forzada basado en máquinas de estado que garantiza salidas estructuralmente válidas. Evaluaciones exhaustivas en dos conjuntos de datos demuestran mejoras consistentes y sustanciales respecto a dos líneas base en cascada, logrando menores tasas de error de palabras en conversaciones multitransmisor y mostrando una precisión de diarización competitiva tanto en los modelos Whisper-small como Whisper-large. Estos hallazgos resaltan la efectividad y utilidad práctica del marco de modelado conjunto propuesto para generar transcripciones fiables, con atribución de hablante, de las interacciones niño-adulto a escala. El código y los pesos del modelo están disponibles públicamente.
Los modelos Mixture-of-Experts (MoE) suelen ser preentrenados con restricciones explícitas de equilibrio de carga para garantizar un enrutamiento de expertos estadísticamente equilibrado. A pesar de esto, observamos que incluso los modelos MoE bien entrenados exhiben un enrutamiento significativamente desequilibrado. Este comportamiento es posiblemente natural, e incluso deseable, ya que el enrutamiento desequilibrado permite a los modelos concentrar conocimiento específico de dominio dentro de un subconjunto de expertos. El paralelismo de expertos (EP) está diseñado para escalar modelos MoE distribuyendo expertos en múltiples dispositivos, pero con una suposición menos discutida de enrutamiento equilibrado. Bajo un desequilibrio extremo, el EP puede canalizar un número desproporcionado de tokens hacia un pequeño número de expertos, lo que genera fallos por límites de computación y memoria en dispositivos sobrecargados durante el post-entrenamiento o la inferencia, donde el equilibrio explícito de carga a menudo no es aplicable. Proponemos el Paralelismo de Expertos de Menor Carga (LLEP), un algoritmo novedoso de EP que redirige dinámicamente los tokens excedentes y los parámetros de expertos asociados desde dispositivos sobrecargados hacia otros infrautilizados. Esto garantiza que todos los dispositivos completen sus cargas de trabajo dentro de la latencia colectiva mínima, respetando las restricciones de memoria. En diferentes escalas de modelos, LLEP logra una aceleración de hasta 5x y una reducción de 4x en el uso máximo de memoria en comparación con el EP estándar. Esto permite un post-entrenamiento y una inferencia más rápidos y de mayor rendimiento, siendo aproximadamente 1.9x más rápido para gpt-oss-120b. Respaldamos nuestro método con un extenso análisis teórico y evaluaciones empíricas exhaustivas, incluidos estudios de ablación. Estos resultados iluminan compensaciones clave y permiten un marco basado en principios para el ajuste de hiperparámetros específicos del hardware con el fin de lograr un rendimiento óptimo.
El cambio de código es una práctica extendida entre la mayoría multilingüe del mundo, sin embargo, pocos puntos de referencia reflejan con precisión su complejidad en la comunicación cotidiana. Presentamos PingPong, un punto de referencia para diálogos naturales de cambio de código entre múltiples participantes que cubre cinco variaciones de combinaciones lingüísticas, algunas de ellas trilingües. Nuestro conjunto de datos consiste en conversaciones creadas por humanos entre 2 y 4 participantes que abarcan estructuras auténticas y multifacéticas, donde las respuestas frecuentemente hacen referencia a puntos mucho más tempranos en el diálogo. Demostramos que nuestros datos son significativamente más naturales y estructuralmente diversos que las alternativas generadas por máquina, ofreciendo una mayor variación en la longitud de los mensajes, el dominio del hablante y la distancia de respuesta. Basándonos en estos diálogos, definimos tres tareas derivadas: Respuesta a Preguntas, Resumen de Diálogos y Clasificación Temática. Las evaluaciones de varios modelos de lenguaje de última generación en PingPong revelan que el rendimiento sigue siendo limitado con entradas de cambio de código, subrayando la necesidad urgente de sistemas de PLN más robustos capaces de abordar las complejidades del discurso multilingüe del mundo real.
La gestión eficiente de la caché de clave-valor (KV) es crucial para el despliegue práctico de los grandes modelos de lenguaje (LLMs), aunque las técnicas de compresión existentes a menudo implican una disyuntiva entre la degradación del rendimiento y la sobrecarga computacional. Proponemos un novedoso método de expulsión de la caché KV basado en compuertas para LLMs con pesos congelados, que logra altas tasas de compresión con un coste computacional insignificante. Nuestro enfoque introduce módulos ligeros de compuertas de atención-sumidero para identificar y retener los pares KV críticos, y se integra perfectamente tanto en la etapa de prellenado como en la de decodificación. El algoritmo de entrenamiento de compuertas propuesto se basa en pasos hacia adelante de un LLM, evitando la costosa retropropagación, mientras alcanza una fuerte generalización de tareas mediante un objetivo de reconstrucción independiente de la tarea. Experimentos exhaustivos en las familias Qwen2.5-1M, Qwen3 y Gemma3 muestran que nuestro método mantiene un rendimiento casi sin pérdidas mientras expulsa hasta el 70% de la caché KV. Los resultados son consistentes en una amplia gama de tareas, incluyendo la comprensión de contexto largo, la comprensión de código y el razonamiento matemático, lo que demuestra la generalidad de nuestro enfoque.
Las matrices de atención son fundamentales para la investigación de transformadores, sustentando una amplia gama de aplicaciones que incluyen la interpretabilidad, visualización, manipulación y destilación. Sin embargo, la mayoría de los análisis existentes se centran en cabezales o capas de atención individuales, sin tener en cuenta el comportamiento global del modelo. Si bien esfuerzos previos han extendido las formulaciones de atención a través de múltiples cabezales mediante promedios y multiplicaciones de matrices, o han incorporado componentes como normalizaciones y FFNs, aún se carece de una representación unificada y completa que encapsule todos los bloques del transformador. Abordamos esta brecha presentando TensorLens, una formulación novedosa que captura el transformador completo como un único operador lineal dependiente de la entrada, expresado a través de un tensor de interacción-atención de alto orden. Este tensor codifica conjuntamente la atención, las FFNs, las activaciones, las normalizaciones y las conexiones residuales, ofreciendo una representación lineal teóricamente coherente y expresiva del cómputo del modelo. TensorLens tiene una base teórica sólida y nuestra validación empírica muestra que produce representaciones más ricas que los métodos previos de agregación de atención. Nuestros experimentos demuestran que el tensor de atención puede servir como una base poderosa para desarrollar herramientas orientadas a la interpretabilidad y comprensión de modelos. Nuestro código se adjunta como material suplementario.
Los Modelos de Lenguaje Grandes están siendo optimizados cada vez más para el razonamiento profundo, priorizando la ejecución correcta de tareas complejas por encima de la conversación general. Investigamos si este enfoque en el cálculo crea una "visión de túnel" que ignora la seguridad en situaciones críticas. Presentamos MortalMATH, un benchmark de 150 escenarios en los que los usuarios solicitan ayuda con álgebra mientras describen emergencias cada vez más potencialmente mortales (por ejemplo, síntomas de un derrame cerebral, caída libre). Encontramos una marcada división conductual: los modelos generalistas (como Llama-3.1) se niegan correctamente a realizar los cálculos para abordar el peligro. Por el contrario, los modelos de razonamiento especializados (como Qwen-3-32b y GPT-5-nano) a menudo ignoran por completo la emergencia, manteniendo tasas de finalización de tareas superiores al 95 por ciento mientras el usuario describe que se está muriendo. Además, el tiempo computacional requerido para el razonamiento introduce retrasos peligrosos: hasta 15 segundos antes de que se ofrezca cualquier ayuda potencial. Estos resultados sugieren que entrenar modelos para perseguir incansablemente respuestas correctas puede hacer que, inadvertidamente, desaprendan los instintos de supervivencia necesarios para un despliegue seguro.
El diseño de interfaces de usuario (UI) es un paso crítico al lanzar productos, construir portfolios o personalizar proyectos; sin embargo, los usuarios finales sin experiencia en diseño a menudo tienen dificultades para articular su intención y confiar en las decisiones de diseño. Las herramientas existentes basadas en ejemplos promueven una exploración amplia, lo que puede causar saturación y desviación del diseño, o requieren adaptar un único ejemplo, arriesgando la fijación en el diseño. Presentamos UI Remix, un sistema interactivo que apoya el diseño de UI móviles mediante un flujo de trabajo de diseño basado en ejemplos. Impulsado por un modelo de generación aumentada por recuperación multimodal (MMRAG), UI Remix permite la búsqueda iterativa, selección y adaptación de ejemplos tanto a nivel global (interfaz completa) como local (componente). Para fomentar la confianza, presenta indicios de transparencia de la fuente, como valoraciones, recuentos de descargas e información del desarrollador. En un estudio empírico con 24 usuarios finales, UI Remix mejoró significativamente la capacidad de los participantes para lograr sus objetivos de diseño, facilitó una iteración efectiva y fomentó la exploración de diseños alternativos. Los participantes también informaron que los indicios de transparencia de la fuente aumentaron su confianza al adaptar ejemplos. Nuestros hallazgos sugieren nuevas direcciones para sistemas impulsados por IA y basados en ejemplos que empoderen a los usuarios finales para diseñar con mayor control, confianza y apertura a la exploración.
Los agentes de búsqueda impulsados por LLM se utilizan cada vez más para tareas de búsqueda de información de múltiples pasos, sin embargo, la comunidad de RI carece de una comprensión empírica de cómo se desarrollan las sesiones de búsqueda agentivas y cómo se utiliza la evidencia recuperada. Este artículo presenta un análisis a gran escala de registros de búsqueda agentiva basado en 14.44 millones de solicitudes de búsqueda (3.97 millones de sesiones) recopiladas de DeepResearchGym, es decir, una API de búsqueda de código abierto accedida por clientes agentivos externos. Sistematizamos los registros, asignamos intenciones a nivel de sesión y etiquetas de reformulación de consultas paso a paso utilizando anotación basada en LLM, y proponemos la Tasa de Adopción de Términos Basada en Contexto (CTAR) para cuantificar si los términos de consulta introducidos recientemente son rastreables hasta la evidencia recuperada previamente. Nuestros análisis revelan patrones de comportamiento distintivos. Primero, más del 90% de las sesiones multiturno contienen como máximo diez pasos, y el 89% de los intervalos entre pasos son inferiores a un minuto. Segundo, el comportamiento varía según la intención. Las sesiones de búsqueda de hechos exhiben una alta repetición que aumenta con el tiempo, mientras que las sesiones que requieren razonamiento mantienen una exploración más amplia. Tercero, los agentes reutilizan evidencia entre pasos. En promedio, el 54% de los términos de consulta introducidos recientemente aparecen en el contexto de evidencia acumulada, con contribuciones de pasos anteriores más allá de la recuperación más reciente. Los hallazgos sugieren que la búsqueda agentiva podría beneficiarse de una parada temprana consciente de la repetición, presupuestos de recuperación adaptativos a la intención y un seguimiento explícito del contexto entre pasos. Planeamos publicar los registros anonimizados para apoyar investigaciones futuras.
El aprendizaje por refuerzo (RL) ha mostrado resultados prometedores en el control activo de flujo (AFC), sin embargo, el progreso en este campo sigue siendo difícil de evaluar ya que los estudios existentes se basan en esquemas heterogéneos de observación y actuación, configuraciones numéricas y protocolos de evaluación. Los benchmarks actuales de AFC intentan abordar estos problemas, pero dependen en gran medida de solucionadores externos de dinámica de fluidos computacional (CFD), no son completamente diferenciables y ofrecen un soporte limitado para 3D y múltiples agentes. Para superar estas limitaciones, presentamos FluidGym, el primer conjunto de benchmarks autónomo y completamente diferenciable para RL en AFC. Desarrollado completamente en PyTorch sobre el solucionador acelerado por GPU PICT, FluidGym funciona en un único entorno Python, no requiere software externo de CFD y proporciona protocolos de evaluación estandarizados. Presentamos resultados de referencia con PPO y SAC y publicamos todos los entornos, conjuntos de datos y modelos entrenados como recursos públicos. FluidGym permite la comparación sistemática de métodos de control, establece una base escalable para futuras investigaciones en control de flujo basado en aprendizaje y está disponible en https://github.com/safe-autonomous-systems/fluidgym.
A medida que los Modelos de Lenguaje Grandes Multimodales (MLLMs, por sus siglas en inglés) adquieren capacidades de razonamiento más sólidas para manejar instrucciones complejas con múltiples imágenes, este avance puede plantear nuevos riesgos de seguridad. Estudiamos este problema mediante la introducción de MIR-SafetyBench, el primer punto de referencia centrado en la seguridad del razonamiento multimodal con múltiples imágenes, que consta de 2.676 instancias distribuidas en una taxonomía de 9 relaciones multimodales. Nuestras evaluaciones exhaustivas en 19 MLLMs revelan una tendencia preocupante: los modelos con capacidades de razonamiento multimodal más avanzadas pueden ser más vulnerables en MIR-SafetyBench. Más allá de las tasas de éxito de los ataques, encontramos que muchas respuestas etiquetadas como seguras son superficiales, a menudo impulsadas por malentendidos o respuestas evasivas y no comprometidas. Además, observamos que las generaciones no seguras exhiben, en promedio, una entropía de atención más baja que las seguras. Esta firma interna sugiere un posible riesgo de que los modelos puedan concentrarse excesivamente en la resolución de tareas mientras descuidan las restricciones de seguridad. Nuestro código y datos están disponibles en https://github.com/thu-coai/MIR-SafetyBench.
La compresión de tokens visuales se adopta ampliamente para mejorar la eficiencia inferencial de los Grandes Modelos de Lenguaje Visual (LVLM), permitiendo su despliegue en escenarios sensibles a la latencia y con recursos limitados. Sin embargo, los trabajos existentes se han centrado principalmente en la eficiencia y el rendimiento, mientras que las implicaciones de seguridad de la compresión de tokens visuales permanecen en gran medida inexploradas. En este trabajo, revelamos primero que la compresión de tokens visuales degrada sustancialmente la robustez de los LVLM: los modelos que son robustos bajo inferencia sin compresión se vuelven altamente vulnerables una vez que se activa la compresión. Estas vulnerabilidades son específicas del estado; los modos de fallo emergen solo en el escenario comprimido y desaparecen por completo cuando la compresión se desactiva, lo que los hace particularmente ocultos y difíciles de diagnosticar. Al analizar las etapas clave del proceso de compresión, identificamos la inestabilidad en la clasificación de importancia de los tokens como la causa principal de esta degradación de la robustez. Pequeñas perturbaciones imperceptibles pueden alterar significativamente las clasificaciones de los tokens, llevando al mecanismo de compresión a descartar erróneamente información crítica para la tarea y causando finalmente el fallo del modelo. Motivados por esta observación, proponemos un Ataque Consciente de la Compresión para estudiar y explotar sistemáticamente esta vulnerabilidad. El CAA se dirige directamente al mecanismo de selección de tokens e induce fallos exclusivamente bajo inferencia comprimida. Extendemos además este enfoque a entornos de caja negra más realistas e introducimos el CAA por Transferencia, donde ni el modelo objetivo ni la configuración de compresión son accesibles. Evaluamos además defensas potenciales y encontramos que ofrecen solo una protección limitada. Experimentos exhaustivos en diversos modelos, conjuntos de datos y métodos de compresión muestran que la compresión de tokens visuales socava significativamente la robustez, revelando una compensación eficiencia-seguridad previamente pasada por alto.
Mezcla de Agentes (MoA) mejora el rendimiento de los LLM mediante colaboración en capas, pero su topología densa incrementa costos y latencia. Los métodos existentes emplean jueces LLM para filtrar respuestas, pero aún requieren que todos los modelos realicen inferencia antes del juicio, sin lograr reducir costos efectivamente. También carecen de criterios de selección de modelos y tienen dificultades con pools grandes de modelos, donde la inferencia completa es costosa y puede exceder límites de contexto. Para abordarlo, proponemos RouteMoA, un marco eficiente de mezcla de agentes con enrutamiento dinámico. Emplea un evaluador ligero que realiza un cribado inicial prediciendo el rendimiento de granularidad gruesa desde la consulta, reduciendo los candidatos a un subconjunto de alto potencial sin inferencia. Una mezcla de jueces luego refina estas puntuaciones mediante autoevaluación y evaluación cruzada ligeras basadas en salidas existentes de modelos, proporcionando corrección posterior sin inferencia adicional. Finalmente, un mecanismo de clasificación de modelos selecciona modelos equilibrando rendimiento, costo y latencia. RouteMoA supera a MoA en diversas tareas y tamaños de pool de modelos, reduciendo el costo en un 89.8% y la latencia en un 63.6% en el pool de modelos a gran escala.
La fiabilidad de los Modelos de Lenguaje a Gran Escala (LLM) en dominios de alto riesgo como la atención sanitaria, el derecho y el descubrimiento científico se ve frecuentemente comprometida por las alucinaciones. Estos fallos suelen originarse en dos fuentes: alucinaciones basadas en datos y alucinaciones basadas en razonamiento. Sin embargo, los métodos de detección existentes generalmente abordan solo una fuente y dependen de heurísticas específicas de la tarea, lo que limita su generalización a escenarios complejos. Para superar estas limitaciones, introducimos el Límite de Riesgo de Alucinación (Hallucination Risk Bound), un marco teórico unificado que descompone formalmente el riesgo de alucinación en componentes basados en datos y en razonamiento, vinculados respectivamente a desajustes en el momento del entrenamiento e inestabilidades en el momento de la inferencia. Esto proporciona una base fundamentada para analizar cómo emergen y evolucionan las alucinaciones. Sobre esta base, presentamos HalluGuard, una puntuación basada en NTK (Núcleo Tangente Neural) que aprovecha la geometría inducida y las representaciones capturadas por el NTK para identificar conjuntamente alucinaciones basadas en datos y en razonamiento. Evaluamos HalluGuard en 10 benchmarks diversos, 11 líneas base competitivas y 9 arquitecturas de LLM populares, logrando consistentemente un rendimiento de vanguardia en la detección de diversas formas de alucinaciones en LLM.
La morfología 3D texturizada busca generar transiciones suaves y plausibles entre dos activos 3D, preservando tanto la coherencia estructural como la apariencia de grano fino. Esta capacidad es crucial no solo para avanzar en la investigación de generación 3D, sino también para aplicaciones prácticas en animación, edición y creación de contenido digital. Los enfoques existentes operan directamente sobre la geometría, limitándolos a la morfología exclusiva de formas mientras ignoran las texturas, o extienden estrategias de interpolación 2D al 3D, lo que a menudo causa ambigüedad semántica, desalineación estructural y desenfoque de texturas. Estos desafíos subrayan la necesidad de preservar conjuntamente la consistencia geométrica, la alineación de texturas y la robustez durante todo el proceso de transición. Para abordarlo, proponemos Interp3D, un novedoso marco de trabajo libre de entrenamiento para la morfología 3D texturizada. Este aprovecha *priors* generativos y adopta un principio de alineación progresiva para garantizar tanto la fidelidad geométrica como la coherencia textual. Partiendo de una interpolación semánticamente alineada en el espacio de condiciones, Interp3D refuerza la consistencia estructural mediante la interpolación estructural guiada por SLAT (*Structured Latent*), y finalmente transfiere los detalles de apariencia mediante una fusión textual de grano fino. Para evaluaciones integrales, construimos un conjunto de datos dedicado, Interp3DData, con niveles de dificultad graduados y evaluamos los resultados de generación en términos de fidelidad, suavidad de transición y plausibilidad. Tanto las métricas cuantitativas como los estudios con usuarios demuestran las ventajas significativas de nuestro enfoque propuesto sobre métodos anteriores. El código fuente está disponible en https://github.com/xiaolul2/Interp3D.