HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

28 papers found

Creación Colaborativa Humano-Agente de Página a Partir de Papel por Menos de $0.1
Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1

Oct 22

ByQianli Ma, Siyu Wang, Yilin Chen, Yinhao Tang, Yixiang Yang, Chang Guo, Bingjie Gao, Zhening Xing, Yanan Sun, Zhipeng Zhang

En la búsqueda del progreso científico, comunicar la investigación es tan vital como el propio descubrimiento. Sin embargo, los investigadores a menudo se ven desviados por la tarea manual y repetitiva de crear páginas web para sus proyectos con el fin de hacer accesibles sus densos artículos. Si bien la automatización ha abordado la creación de diapositivas y pósters estáticos, la naturaleza dinámica e interactiva de las páginas web ha seguido siendo un desafío sin resolver. Para cerrar esta brecha, reformulamos el problema, argumentando que la solución no reside en un único comando, sino en un proceso colaborativo y jerárquico. Presentamos AutoPage, un novedoso sistema multiagente que materializa esta filosofía. AutoPage descompone la creación de páginas a partir de artículos en un pipeline de granularidad gruesa a fina, que va desde la planificación narrativa hasta la generación de contenido multimodal y el renderizado interactivo. Para combatir las alucinaciones de la IA, agentes "Verificadores" dedicados validan cada paso contra el artículo fuente, mientras que puntos de control humanos opcionales garantizan que el producto final se alinee perfectamente con la visión del autor, transformando el sistema de una mera herramienta en un potente asistente colaborativo. Para validar rigurosamente nuestro enfoque, también construimos PageBench, el primer benchmark para esta nueva tarea. Los experimentos muestran que AutoPage no solo genera páginas de alta calidad y visualmente atractivas, sino que lo hace con una eficiencia notable en menos de 15 minutos y por menos de \$0.1. El código y el conjunto de datos se publicarán en https://mqleet.github.io/AutoPage_ProjectPage/{Webpage}$.

AdaSPEC: Distilación Selectiva de Conocimiento para Decodificadores Especulativos Eficientes
AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders

Oct 22

ByYuezhou Hu, Jiaxin Guo, Xinyu Feng, Tuo Zhao

La Decodificación Especulativa (SD) acelera la inferencia de modelos de lenguaje grandes empleando un modelo de borrador pequeño para generar predicciones, que luego son verificadas por un modelo objetivo más grande. La efectividad de la SD depende de la alineación entre estos modelos, la cual normalmente se mejora mediante la Destilación de Conocimiento (KD). Sin embargo, los métodos convencionales de KD buscan minimizar la divergencia KL entre los modelos de borrador y objetivo en todos los tokens, un objetivo que no está alineado con el verdadero propósito de la SD, que es maximizar la tasa de aceptación de tokens. Por lo tanto, los modelos de borrador a menudo luchan por asimilar completamente el conocimiento del modelo objetivo debido a limitaciones de capacidad, lo que conduce a un rendimiento subóptimo. Para abordar este desafío, proponemos AdaSPEC, un método novedoso que incorpora un filtrado selectivo de tokens en el proceso de KD. AdaSPEC utiliza un modelo de referencia para identificar y filtrar los tokens difíciles de ajustar, permitiendo la destilación de un modelo de borrador que se alinea mejor con el modelo objetivo en tokens más simples. Este enfoque mejora la tasa general de aceptación de tokens sin comprometer la calidad de la generación. Evaluamos AdaSPEC en diversas tareas, incluyendo razonamiento aritmético, seguimiento de instrucciones, codificación y resumen, utilizando configuraciones de modelos de 31M/1.4B y 350M/2.7B de parámetros. Nuestros resultados demuestran que AdaSPEC supera consistentemente al método de vanguardia DistillSpec, logrando tasas de aceptación más altas en todas las tareas (hasta un 15\%). El código está disponible públicamente en https://github.com/yuezhouhu/adaspec.

Open-o3 Video: Razonamiento de Video Fundamentado con Evidencia Espacio-Temporal Explícita
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

Oct 23

ByJiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang

La mayoría de los modelos de razonamiento en video solo generan trazas de razonamiento textuales sin indicar cuándo y dónde aparece la evidencia clave. Modelos recientes como OpenAI-o3 han despertado un gran interés en el razonamiento centrado en evidencia para imágenes, pero extender esta capacidad a los videos es más desafiante, ya que requiere un seguimiento temporal y una localización espacial conjunta a través de escenas dinámicas. Introducimos Open-o3 Video, un marco no-agente que integra evidencia espacio-temporal explícita en el razonamiento de video, y recopilamos cuidadosamente datos de entrenamiento y diseñamos estrategias de entrenamiento para abordar los desafíos mencionados. El modelo resalta marcas de tiempo, objetos y cuadros delimitadores clave junto con sus respuestas, permitiendo que el razonamiento se base en observaciones visuales concretas. Para habilitar esta funcionalidad, primero curamos y construimos dos conjuntos de datos de alta calidad, STGR-CoT-30k para SFT y STGR-RL-36k para RL, con anotaciones temporales y espaciales cuidadosamente construidas, ya que la mayoría de los conjuntos de datos existentes ofrecen intervalos temporales para videos o cuadros espaciales en imágenes, careciendo de una supervisión y trazas de razonamiento espacio-temporal unificadas. Luego, adoptamos una estrategia de aprendizaje por refuerzo de inicio en frío con múltiples recompensas especialmente diseñadas que fomentan conjuntamente la precisión de la respuesta, la alineación temporal y la precisión espacial. En el benchmark V-STAR, Open-o3 Video logra un rendimiento state-of-the-art, aumentando la mAM en un 14.4% y la mLGM en un 24.2% sobre la línea base Qwen2.5-VL. También se observan mejoras consistentes en una amplia gama de benchmarks de comprensión de video, incluyendo VideoMME, WorldSense, VideoMMMU y TVGBench. Más allá de la precisión, las trazas de razonamiento producidas por Open-o3 Video también proporcionan señales valiosas para el escalado en tiempo de prueba, permitiendo una verificación consciente de la confianza y mejorando la fiabilidad de las respuestas.

HoloCine: Generación Holística de Narrativas de Video Largos con Planos Múltiples Cinematográficos
HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

Oct 23

ByYihao Meng, Hao Ouyang, Yue Yu, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Hanlin Wang, Yixuan Li, Cheng Chen, Yanhong Zeng, Yujun Shen, Huamin Qu

Los modelos de última generación de texto a vídeo sobresalen en la generación de clips aislados, pero se quedan cortos a la hora de crear las narrativas coherentes y de múltiples planos que son la esencia de la narrativa audiovisual. Cerramos esta "brecha narrativa" con HoloCine, un modelo que genera escenas completas de forma holística para garantizar una coherencia global desde el primer plano hasta el último. Nuestra arquitectura logra un control de dirección preciso mediante un mecanismo de Ventana de Atención Cruzada que localiza las indicaciones de texto en planos específicos, mientras que un patrón de Atención Interna Dispersa entre Planos (densa dentro de los planos pero dispersa entre ellos) garantiza la eficiencia necesaria para la generación a escala de minutos. Más allá de establecer un nuevo estado del arte en coherencia narrativa, HoloCine desarrolla notables habilidades emergentes: una memoria persistente para personajes y escenas, y una comprensión intuitiva de las técnicas cinematográficas. Nuestro trabajo marca un cambio pivotal desde la síntesis de clips hacia la cinematografía automatizada, haciendo que la creación cinematográfica de extremo a extremo sea un futuro tangible. Nuestro código está disponible en: https://holo-cine.github.io/.

DyPE: Extrapolación Dinámica de Posición para Difusión de Ultra Alta Resolución
DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion

Oct 23

ByNoam Issachar, Guy Yariv, Sagie Benaim, Yossi Adi, Dani Lischinski, Raanan Fattal

Los modelos de difusión con transformadores pueden generar imágenes con una fidelidad y detalle notables, sin embargo, entrenarlos a resoluciones ultra-altas sigue siendo extremadamente costoso debido a la escala cuadrática del mecanismo de autoatención con el número de tokens de imagen. En este artículo, presentamos la Extrapolación Dinámica de Posición (DyPE), un método novedoso, que no requiere entrenamiento y que permite a los transformadores de difusión preentrenados sintetizar imágenes a resoluciones muy superiores a sus datos de entrenamiento, sin coste adicional de muestreo. DyPE aprovecha la progresión espectral inherente al proceso de difusión, donde las estructuras de baja frecuencia convergen temprano, mientras que las altas frecuencias requieren más pasos para resolverse. Específicamente, DyPE ajusta dinámicamente la codificación posicional del modelo en cada paso de difusión, haciendo coincidir su espectro de frecuencias con la etapa actual del proceso generativo. Este enfoque nos permite generar imágenes a resoluciones que exceden drásticamente la resolución de entrenamiento, por ejemplo, 16 millones de píxeles usando FLUX. En múltiples benchmarks, DyPE mejora consistentemente el rendimiento y logra una fidelidad de vanguardia en la generación de imágenes de ultra alta resolución, siendo las ganancias aún más pronunciadas a resoluciones más altas. La página del proyecto está disponible en https://noamissachar.github.io/DyPE/.

Eludir la Difusión Discreta: Omisión Determinista del Muro de Muestreo
Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall

Oct 22

ByMingyu Jo, Jaesik Yoon, Justin Deschenaux, Caglar Gulcehre, Sungjin Ahn

Los modelos de difusión discreta ofrecen una alternativa prometedora a la generación autoregresiva mediante decodificación paralela, pero sufren de un muro de muestreo: una vez que ocurre el muestreo categórico, la rica información distribucional colapsa en vectores one-hot y no puede propagarse entre pasos, forzando a los pasos subsiguientes a operar con información limitada. Para mitigar este problema, introducimos *Loopholing*, un mecanismo novedoso y simple que preserva esta información mediante una ruta latente determinista, dando lugar a los Modelos de Difusión Discreta con Loopholing (LDDMs). Entrenados eficientemente con una estrategia de auto-condicionamiento, los LDDMs logran mejoras sustanciales: reducen la perplejidad generativa hasta en un 61% respecto a líneas base anteriores, cerrando (y en algunos casos superando) la brecha con los modelos autoregresivos, y produciendo texto más coherente. Aplicados a tareas de razonamiento, los LDDMs también mejoran el rendimiento en benchmarks aritméticos como Countdown y Game of 24. Estos resultados también indican que el loopholing mitiga los pasos inactivos y las oscilaciones, proporcionando una ruta escalable hacia la generación de texto no autoregresivo de alta calidad.

Seed3D 1.0: De Imágenes a Activos 3D de Alta Fidelidad Listos para Simulación
Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

Oct 22

ByJiashi Feng, Xiu Li, Jing Lin, Jiahang Liu, Gaohong Liu, Weiqiang Lou, Su Ma, Guang Shi, Qinlong Wang, Jun Wang, Zhongcong Xu, Xuanyu Yi, Zihao Yu, Jianfeng Zhang, Yifan Zhu, Rui Chen, Jinxin Chi, Zixian Du, Li Han, Lixin Huang, Kaihua Jiang, Yuhan Li, Guan Luo, Shuguang Wang, Qianyi Wu, Fan Yang, Junyang Zhang, Xuanmeng Zhang

El desarrollo de agentes de IA corporizados requiere entornos de entrenamiento escalables que equilibren la diversidad de contenido con la precisión física. Los simuladores de mundo proporcionan dichos entornos, pero enfrentan limitaciones distintivas: los métodos basados en vídeo generan contenido diverso pero carecen de retroalimentación física en tiempo real para el aprendizaje interactivo, mientras que los motores basados en física proporcionan dinámicas precisas pero enfrentan limitaciones de escalabilidad debido a la costosa creación manual de recursos. Presentamos Seed3D 1.0, un modelo fundacional que genera recursos 3D listos para simulación a partir de imágenes únicas, abordando el desafío de la escalabilidad mientras mantiene el rigor físico. A diferencia de los modelos de generación 3D existentes, nuestro sistema produce recursos con geometría precisa, texturas bien alineadas y materiales realistas basados en física. Estos recursos pueden integrarse directamente en motores físicos con una configuración mínima, permitiendo su despliegue en manipulación robótica y entrenamiento por simulación. Más allá de objetos individuales, el sistema escala hasta la generación de escenas completas mediante el ensamblaje de objetos en entornos coherentes. Al permitir una creación de contenido escalable y listo para simulación, Seed3D 1.0 proporciona una base para avanzar en los simuladores de mundo basados en física. Seed3D 1.0 ya está disponible en https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D.

SAKE: Hacia la Edición del Conocimiento de Atributos Auditivos en Modelos Grandes de Audio y Lenguaje
SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models

Oct 19

ByChih-Kai Yang, Yen-Ting Piao, Tzu-Wen Hsu, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee

La edición de conocimiento ofrece una forma eficiente de actualizar el conocimiento del modelo sin un reentrenamiento completo, pero trabajos previos se han concentrado casi exclusivamente en modalidades textuales o visuales. Presentamos SAKE, el primer benchmark diseñado específicamente para editar conocimiento de atributos auditivos en Modelos Grandes de Audio y Lenguaje (LALMs). A diferencia de las actualizaciones factuales, SAKE se enfoca en varios atributos auditivos abstractos, capturando tipos de conocimiento que van más allá de los dominios textuales y visuales convencionales. Evaluamos siete métodos de edición en dos LALMs a lo largo de cuatro dimensiones: confiabilidad, generalidad, localidad audio/texto y portabilidad. Los resultados destacan desafíos como preservar el conocimiento intra-atributo no relacionado con la edición, generalizar las ediciones al razonamiento multimodal y mantener las ediciones bajo actualizaciones secuenciales. SAKE proporciona un marco de trabajo fundamentado para estudiar cómo la edición de conocimiento se extiende a las modalidades auditivas, abriendo nuevas direcciones para mantener y adaptar LALMs en escenarios del mundo real más diversos.

Cada Pregunta Tiene Su Propio Valor: Aprendizaje por Refuerzo con Valores Humanos Explícitos
Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values

Oct 23

ByDian Yu, Yulai Zhao, Kishan Panaganti, Linfeng Song, Haitao Mi, Dong Yu

Proponemos Aprendizaje por Refuerzo con Valores Humanos Explícitos (RLEV), un método que alinea la optimización de Modelos de Lenguaje a Gran Escala (LLM) directamente con señales cuantificables de valores humanos. Si bien el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) entrena eficazmente modelos en dominios objetivos utilizando recompensas binarias de corrección, pasa por alto que no todas las tareas son igualmente significativas. RLEV extiende este marco incorporando señales de valor definidas por humanos directamente en la función de recompensa. Utilizando datos de tipo examen con etiquetas de valor explícitas de referencia, RLEV supera consistentemente a los baselines que solo consideran la corrección en múltiples algoritmos de RL y escalas de modelos. Crucialmente, las políticas de RLEV no solo mejoran la precisión ponderada por valor, sino que también aprenden una política de terminación sensible al valor: concisa para instrucciones de bajo valor y exhaustiva para las de alto valor. Demostramos que este comportamiento surge de la amplificación del gradiente ponderado por valor en los tokens de fin de secuencia. Estudios de ablación confirman que la ganancia está causalmente vinculada a la alineación de valores. RLEV se mantiene robusto bajo señales de valor ruidosas, como etiquetas basadas en dificultad, lo que demuestra que optimizar para una función de utilidad explícita ofrece un camino práctico para alinear los LLM con las prioridades humanas.

Investigación de Vulnerabilidades de Seguridad en Grandes Modelos de Audio y Lenguaje ante Variaciones Emocionales del Hablante
Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations

Oct 19

ByBo-Han Feng, Chien-Feng Liu, Yu-Hsuan Li Liang, Chih-Kai Yang, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee

Los grandes modelos de audio-lenguaje (LALMs, por sus siglas en inglés) amplían los modelos de lenguaje basados en texto con capacidades de comprensión auditiva, ofreciendo nuevas oportunidades para aplicaciones multimodales. Si bien su percepción, razonamiento y rendimiento en tareas han sido ampliamente estudiados, su alineación de seguridad ante variaciones paralingüísticas sigue siendo un área poco explorada. Este trabajo investiga sistemáticamente el papel de la emoción del hablante. Construimos un conjunto de datos de instrucciones de voz maliciosas expresadas con múltiples emociones e intensidades, y evaluamos varios LALMs de vanguardia. Nuestros resultados revelan inconsistencias sustanciales en la seguridad: diferentes emociones provocan distintos niveles de respuestas inseguras, y el efecto de la intensidad no es monótono, siendo las expresiones medias las que a menudo presentan el mayor riesgo. Estos hallazgos destacan una vulnerabilidad pasada por alto en los LALMs y exigen estrategias de alineación diseñadas explícitamente para garantizar la robustez ante variaciones emocionales, un requisito previo para una implementación confiable en entornos del mundo real.

Búsqueda por Autojuego: Empujando la Frontera de la Capacidad de los Agentes sin Supervisión
Search Self-play: Pushing the Frontier of Agent Capability without Supervision

Oct 21

ByHongliang Lu, Yuhang Wen, Pengyu Cheng, Ruijin Ding, Haotian Xu, Jiaqi Guo, Chutian Wang, Haonan Chen, Xiaoxi Jiang, Guanjun Jiang

El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en la técnica principal para entrenar agentes de LLM. Sin embargo, el RLVR depende en gran medida de consultas de tareas bien elaboradas y sus respuestas de referencia correspondientes para proporcionar recompensas precisas, lo que requiere un esfuerzo humano masivo y obstaculiza los procesos de escalado del RL, especialmente en escenarios agentivos. Aunque algunos trabajos recientes exploran métodos de síntesis de tareas, la dificultad de las tareas agentivas generadas difícilmente puede controlarse para proporcionar ventajas efectivas en el entrenamiento de RL. Para lograr un RLVR agentivo con mayor escalabilidad, exploramos el entrenamiento de auto-juego para agentes de búsqueda profunda, en el cual el LLM en aprendizaje utiliza llamadas multi-turno a motores de búsqueda y actúa simultáneamente como proponente de tareas y solucionador de problemas. El proponente de tareas tiene como objetivo generar consultas de búsqueda profunda con respuestas de referencia bien definidas y una dificultad de tarea creciente. El solucionador de problemas intenta manejar las consultas de búsqueda generadas y producir las predicciones de respuesta correctas. Para garantizar que cada consulta de búsqueda generada tenga una verdad fundamental precisa, recopilamos todos los resultados de búsqueda de la trayectoria del proponente como conocimiento externo, y luego realizamos una generación aumentada por recuperación (RAG) para probar si la consulta propuesta puede responderse correctamente con todos los documentos de búsqueda necesarios proporcionados. En este juego de auto-juego de búsqueda (SSP), el proponente y el solucionador co-evolucionan sus capacidades agentivas mediante la competencia y la cooperación. Con resultados experimentales sustanciales, encontramos que el SSP puede mejorar significativamente el rendimiento de los agentes de búsqueda de manera uniforme en varios puntos de referencia sin ninguna supervisión, tanto en configuraciones de entrenamiento de RL desde cero como continuo. El código está en https://github.com/Alibaba-Quark/SSP.

El Punto de Referencia Masivo de Incrustaciones Legales (MLEB)
The Massive Legal Embedding Benchmark (MLEB)

Oct 22

ByUmar Butler, Abdur-Rahman Butler, Adrian Lucas Malec

Presentamos el Massive Legal Embedding Benchmark (MLEB), el benchmark de código abierto para recuperación de información legal más extenso, diverso y completo hasta la fecha. MLEB consta de diez conjuntos de datos anotados por expertos que abarcan múltiples jurisdicciones (EE. UU., Reino Unido, UE, Australia, Irlanda y Singapur), tipos de documentos (sentencias, legislación, directrices regulatorias, contratos y literatura) y tipos de tareas (búsqueda, clasificación zero-shot y respuesta a preguntas). Siete de los conjuntos de datos en MLEB fueron construidos recientemente para llenar vacíos de dominio y jurisdiccionales en el panorama de la recuperación de información legal de código abierto. Documentamos nuestra metodología para construir MLEB y crear los nuevos conjuntos de datos constituyentes, y publicamos abiertamente nuestro código, resultados y datos para facilitar evaluaciones reproducibles.

Comunicación de Pensamientos en la Colaboración Multiagente
Thought Communication in Multiagent Collaboration

Oct 23

ByYujia Zheng, Zhuokai Zhao, Zijian Li, Yaqi Xie, Mingze Gao, Lizhu Zhang, Kun Zhang

El lenguaje natural ha permitido durante mucho tiempo la cooperación humana, pero su naturaleza con pérdidas, ambigua e indirecta limita el potencial de la inteligencia colectiva. Si bien las máquinas no están sujetas a estas limitaciones, la mayoría de los sistemas multiagente basados en LLM siguen dependiendo únicamente del lenguaje natural, intercambiando tokens o sus *embeddings*. Para ir más allá del lenguaje, introducimos un nuevo paradigma, la comunicación de pensamientos, que permite a los agentes interactuar directamente de mente a mente, similar a la telepatía. Para descubrir estos pensamientos latentes de manera fundamentada, formalizamos el proceso como un modelo general de variables latentes, donde los estados de los agentes son generados por una función desconocida de pensamientos subyacentes. Demostramos que, en un entorno no paramétrico sin información auxiliar, tanto los pensamientos latentes compartidos como los privados entre cualquier par de agentes pueden identificarse. Además, la estructura global del intercambio de pensamientos, incluyendo qué agentes comparten qué pensamientos y cómo se estructuran estas relaciones, también puede recuperarse con garantías teóricas. Guiados por la teoría establecida, desarrollamos un marco que extrae los pensamientos latentes de todos los agentes antes de la comunicación y asigna a cada agente los pensamientos relevantes, junto con sus patrones de intercambio. Este paradigma se extiende naturalmente más allá de los LLM a todas las modalidades, ya que la mayoría de los datos observacionales surgen de procesos generativos ocultos. Los experimentos en benchmarks tanto sintéticos como del mundo real validan la teoría y demuestran las ventajas colaborativas de la comunicación de pensamientos. Esperamos que este trabajo ilumine el potencial de aprovechar el mundo oculto, ya que muchos desafíos siguen sin solución a través de la observación superficial únicamente, independientemente de la escala de computación o datos.

Conan: Aprendizaje Progresivo para Razonar como un Detective sobre Evidencia Visual a Múltiples Escalas
Conan: Progressive Learning to Reason Like a Detective over Multi-Scale Visual Evidence

Oct 23

ByKun Ouyang, Yuanxin Liu, Linli Yao, Yishuo Cai, Hao Zhou, Jie Zhou, Fandong Meng, Xu Sun

El razonamiento en video, que requiere deducción multi-paso entre fotogramas, sigue siendo un desafío importante para los modelos de lenguaje grandes multimodales (MLLMs). Si bien los métodos basados en aprendizaje por refuerzo (RL) mejoran las capacidades de razonamiento, a menudo dependen de cadenas de razonamiento puramente textuales que producen conclusiones infundadas o alucinadas. Por el contrario, los enfoques de recuperación de fotogramas introducen anclaje visual pero aún presentan dificultades en la localización precisa de evidencias. Para abordar estos desafíos, presentamos Conan, un marco para el razonamiento en video multi-paso fundamentado en evidencias. Conan identifica fotogramas contextuales y de evidencia, razona sobre pistas inter-fotogramas y decide adaptativamente cuándo concluir o explorar más. Para lograrlo, (1) construimos Conan-91K, un conjunto de datos a gran escala de trazas de razonamiento generadas automáticamente que incluye identificación de fotogramas, razonamiento evidenciado y decisión de acción, y (2) diseñamos una estrategia progresiva de arranque en frío multi-etapa combinada con un marco de entrenamiento RLVR de Identificación-Razonamiento-Acción (AIR) para mejorar conjuntamente el razonamiento visual multi-paso. Experimentos exhaustivos en seis benchmarks de razonamiento multi-paso demuestran que Conan supera al modelo base Qwen2.5-VL-7B-Instruct en un promedio de más del 10% en precisión, logrando un rendimiento de vanguardia. Además, Conan generaliza efectivamente a tareas de comprensión de videos largos, validando su fuerte escalabilidad y robustez.

LayerComposer: Generación Interactiva y Personalizada de Texto a Imagen (T2I) Mediante un Lienzo en Capas con Conciencia Espacial
LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas

Oct 23

ByGuocheng Gordon Qian, Ruihang Zhang, Tsai-Shien Chen, Yusuf Dalva, Anujraaj Argo Goyal, Willi Menapace, Ivan Skorokhodov, Meng Dong, Arpit Sahni, Daniil Ostashev, Ju Hu, Sergey Tulyakov, Kuan-Chieh Jackson Wang

A pesar de su impresionante fidelidad visual, los modelos generativos personalizados existentes carecen de control interactivo sobre la composición espacial y no escalan adecuadamente a múltiples sujetos. Para abordar estas limitaciones, presentamos LayerComposer, un marco interactivo para la generación de imágenes personalizadas de múltiples sujetos a partir de texto. Nuestro enfoque introduce dos contribuciones principales: (1) un lienzo en capas, una representación novedosa en la que cada sujeto se coloca en una capa distinta, permitiendo una composición libre de oclusiones; y (2) un mecanismo de bloqueo que preserva las capas seleccionadas con alta fidelidad mientras permite que las capas restantes se adapten flexiblemente al contexto circundante. De manera similar al software profesional de edición de imágenes, el lienzo en capas propuesto permite a los usuarios colocar, redimensionar o bloquear sujetos de entrada mediante una manipulación intuitiva de capas. Nuestro versátil mecanismo de bloqueo no requiere cambios arquitectónicos, sino que se basa en incrustaciones posicionales inherentes combinadas con una nueva estrategia de muestreo de datos complementaria. Experimentos exhaustivos demuestran que LayerComposer logra un control espacial y una preservación de la identidad superiores en comparación con los métodos de vanguardia en la generación de imágenes personalizadas de múltiples sujetos.

ARGenSeg: Segmentación de Imágenes con Modelo de Generación Autoregresiva de Imágenes
ARGenSeg: Image Segmentation with Autoregressive Image Generation Model

Oct 23

ByXiaolong Wang, Lixiang Ru, Ziyuan Huang, Kaixiang Ji, Dandan Zheng, Jingdong Chen, Jun Zhou

Proponemos un nuevo paradigma de segmentación de imágenes basado en generación autoregresiva (ARGenSeg), logrando comprensión multimodal y percepción a nivel de píxel dentro de un marco unificado. Los trabajos previos que integran segmentación de imágenes en modelos de lenguaje grandes multimodales (MLLM) suelen emplear representaciones mediante puntos de contorno o cabezales de segmentación dedicados. Estos métodos dependen de representaciones discretas o *prompts* semánticos introducidos en decodificadores específicos de tarea, lo que limita la capacidad del MLLM para capturar detalles visuales finos. Para abordar estos desafíos, presentamos un marco de segmentación para MLLM basado en generación de imágenes, que produce naturalmente máscaras densas para objetos objetivo. Aprovechamos el MLLM para generar *tokens* visuales y los desconvertimos en imágenes usando un VQ-VAE universal, haciendo que la segmentación dependa completamente de la comprensión a nivel de píxel del MLLM. Para reducir la latencia de inferencia, empleamos una estrategia de predicción de escala siguiente para generar los *tokens* visuales requeridos en paralelo. Experimentos exhaustivos demuestran que nuestro método supera a los enfoques anteriores de vanguardia en múltiples conjuntos de datos de segmentación con un notable aumento en la velocidad de inferencia, manteniendo sólidas capacidades de comprensión.

Diff-XYZ: Un Punto de Referencia para Evaluar la Comprensión de Diferencias
Diff-XYZ: A Benchmark for Evaluating Diff Understanding

Oct 14

ByEvgeniy Glukhov, Michele Conti, Egor Bogomolov, Yaroslav Golubev, Alexander Bezzubov

El manejo confiable de diferencias de código (diffs) es fundamental para agentes que editan y refactorizan repositorios a gran escala. Presentamos Diff-XYZ, un benchmark compacto para la comprensión de diferencias de código con tres tareas supervisadas: aplicar (código antiguo + diff → código nuevo), anti-aplicar (código nuevo - diff → código antiguo) y generación de diff (código nuevo - código antiguo → diff). Las instancias en el benchmark son triplas ⟨código antiguo, código nuevo, diff⟩ extraídas de commits reales en CommitPackFT, acompañadas de métricas automáticas y un protocolo de evaluación claro. Utilizamos el benchmark para realizar un estudio empírico centrado en el formato unificado de diff y ejecutamos una comparación cruzada de diferentes representaciones de diff. Nuestros hallazgos revelan que deben utilizarse diferentes formatos según el caso de uso y el tamaño del modelo. Por ejemplo, representar los diffs en formato de búsqueda y reemplazo es adecuado para modelos más grandes en el escenario de generación de diff, pero no se adapta bien al análisis de diffs y a modelos más pequeños. El benchmark Diff-XYZ es una base reutilizable para evaluar y mejorar el manejo de diffs en LLMs que puede ayudar al desarrollo futuro de formatos de diff y modelos que editan código. El conjunto de datos se publica en HuggingFace Hub: https://huggingface.co/datasets/JetBrains-Research/diff-xyz.

CiteGuard: Atribución Fiel de Citas para LLMs mediante Validación Aumentada por Recuperación
CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation

Oct 15

ByYee Man Choi, Xuehang Guo, Yi R., Fung, Qingyun Wang

Los Modelos de Lenguaje a Gran Escala (LLM) han surgido como asistentes prometedores para la escritura científica. Sin embargo, han surgido preocupaciones respecto a la calidad y fiabilidad del texto generado, una de las cuales es la precisión y fidelidad de las citas. Si bien la mayoría de los trabajos recientes se basan en métodos como el uso del LLM como juez, la fiabilidad de este enfoque por sí solo también es cuestionable. En este trabajo, replanteamos la evaluación de citas como un problema de alineación en la atribución de citas, que consiste en evaluar si las citas generadas por un LLM coinciden con las que un autor humano incluiría para el mismo texto. Proponemos CiteGuard, un marco de agente consciente de la recuperación de información, diseñado para proporcionar una base más fidedigna para la validación de citas. CiteGuard mejora el punto de referencia anterior en un 12,3% y alcanza hasta un 65,4% de precisión en el benchmark CiteME, a la par con el rendimiento humano (69,7%). También permite la identificación de citas alternativas pero válidas.

AlphaFlow: Comprensión y Mejora de los Modelos MeanFlow
AlphaFlow: Understanding and Improving MeanFlow Models

Oct 23

ByHuijie Zhang, Aliaksandr Siarohin, Willi Menapace, Michael Vasilkovsky, Sergey Tulyakov, Qing Qu, Ivan Skorokhodov

MeanFlow ha surgido recientemente como un marco poderoso para el modelado generativo de pocos pasos entrenado desde cero, pero su éxito aún no se comprende completamente. En este trabajo, demostramos que el objetivo de MeanFlow se descompone naturalmente en dos partes: ajuste de flujo de trayectoria y consistencia de trayectoria. Mediante análisis de gradientes, encontramos que estos términos están fuertemente correlacionados negativamente, causando conflicto de optimización y una convergencia lenta. Motivados por estas observaciones, presentamos alpha-Flow, una amplia familia de objetivos que unifica el ajuste de flujo de trayectoria, Shortcut Model y MeanFlow bajo una misma formulación. Al adoptar una estrategia curricular que transita suavemente desde el ajuste de flujo de trayectoria hasta MeanFlow, alpha-Flow desentrelaza los objetivos en conflicto y logra una mejor convergencia. Cuando se entrena desde cero en ImageNet-1K 256x256 condicionado por clase con backbones DiT estándar, alpha-Flow supera consistentemente a MeanFlow en todas las escalas y configuraciones. Nuestro modelo más grande, alpha-Flow-XL/2+, logra nuevos resultados de vanguardia utilizando backbones DiT estándar, con puntuaciones FID de 2.58 (1-NFE) y 2.15 (2-NFE).

Leyes de Escalado Encuentran la Arquitectura del Modelo: Hacia LLMs con Inferencia Eficiente
Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

Oct 21

BySong Bian, Tao Yu, Shivaram Venkataraman, Youngsuk Park

El escalado del número de parámetros y del tamaño de los datos de entrenamiento ha demostrado ser una estrategia eficaz para mejorar el rendimiento de los modelos de lenguaje grandes (LLM). Sin embargo, a medida que estos modelos se vuelven más potentes y se despliegan ampliamente, el coste de la inferencia se ha convertido en una preocupación apremiante. A pesar de su importancia, la compensación entre la precisión del modelo y la eficiencia de la inferencia sigue estando poco explorada. En este trabajo, examinamos cómo factores arquitectónicos clave —el tamaño de la capa oculta, la asignación de parámetros entre MLP y atención (relación mlp-atención) y la atención de consulta agrupada (GQA)— influyen tanto en el coste de inferencia como en la precisión. Introducimos una ley de escalado condicional que amplía el marco de Chinchilla con información arquitectónica, junto con un marco de búsqueda para identificar arquitecturas que sean simultáneamente eficientes en inferencia y precisas. Para validar nuestro enfoque, entrenamos más de 200 modelos que abarcan desde 80M hasta 3B de parámetros y de 8B a 100B de tokens de entrenamiento, y ajustamos la ley de escalado condicional propuesta. Nuestros resultados muestran que la ley de escalado condicional predice de forma fiable las opciones arquitectónicas óptimas y que los modelos resultantes superan a las líneas base de código abierto existentes. Con el mismo presupuesto de entrenamiento, las arquitecturas optimizadas logran hasta un 2.1% más de precisión y un 42% más de rendimiento de inferencia en comparación con LLaMA-3.2.

De las Máscaras a los Mundos: Una Guía del Autoestopista para los Modelos del Mundo.
From Masks to Worlds: A Hitchhiker's Guide to World Models

Oct 23

ByJinbin Bai, Yu Lei, Hecong Wu, Yuchen Zhu, Shufan Li, Yi Xin, Xiangtai Li, Molei Tao, Aditya Grover, Ming-Hsuan Yang

Esta no es una encuesta típica sobre modelos del mundo; es una guía para quienes desean construir mundos. No pretendemos catalogar cada artículo que haya mencionado un "modelo del mundo". En su lugar, seguimos un camino claro: desde los primeros modelos enmascarados que unificaron el aprendizaje de representaciones entre modalidades, hasta las arquitecturas unificadas que comparten un único paradigma, pasando por los modelos generativos interactivos que cierran el ciclo acción-percepción, y finalmente hasta los sistemas aumentados con memoria que mantienen mundos consistentes en el tiempo. Omitimos ramas vagamente relacionadas para centrarnos en el núcleo: el corazón generativo, el ciclo interactivo y el sistema de memoria. Demostramos que este es el camino más prometedor hacia los verdaderos modelos del mundo.

ImpossibleBench: Evaluación de la Propensión de los LLM a Explotar Casos de Prueba
ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases

Oct 23

ByZiqian Zhong, Aditi Raghunathan, Nicholas Carlini

La tendencia a encontrar y explotar "atajos" para completar tareas plantea riesgos significativos para la evaluación confiable y la implementación de modelos de lenguaje grandes (LLM). Por ejemplo, un agente de LLM con acceso a pruebas unitarias podría eliminar las pruebas que fallan en lugar de corregir el error subyacente. Este comportamiento socava tanto la validez de los resultados de los puntos de referencia como la confiabilidad de las implementaciones de asistentes de codificación con LLM en entornos reales. Para cuantificar, estudiar y mitigar dicho comportamiento, presentamos ImpossibleBench, un marco de evaluación que mide sistemáticamente la propensión de los agentes de LLM a explotar los casos de prueba. ImpossibleBench crea variantes "imposibles" de tareas de benchmarks existentes como LiveCodeBench y SWE-bench introduciendo conflictos directos entre la especificación en lenguaje natural y las pruebas unitarias. Medimos la "tasa de trampa" de un agente como su tasa de aprobación en estas tareas imposibles, donde cualquier aprobación implica necesariamente un atajo que viola la especificación. Como marco práctico, ImpossibleBench no es solo una evaluación, sino una herramienta versátil. Demostramos su utilidad para: (1) estudiar comportamientos del modelo, revelando detalles más granulares de las conductas de trampa, desde la simple modificación de pruebas hasta la compleja sobrecarga de operadores; (2) la ingeniería de contexto, mostrando cómo el prompt, el acceso a las pruebas y el bucle de retroalimentación afectan las tasas de trampa; y (3) desarrollar herramientas de monitoreo, proporcionando un banco de pruebas con soluciones engañosas verificadas. Esperamos que ImpossibleBench sirva como un marco útil para construir sistemas de LLM más robustos y confiables. Nuestra implementación se puede encontrar en https://github.com/safety-research/impossiblebench.

Benchmark de Atención de Contexto Extendido: Desde la Eficiencia del Kernel hasta el Paralelismo de Contexto Distribuido
Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism

Oct 19

ByTao Bu, Qiangang Wang, Bowen Zeng, Hanwen Sun, Yunpeng Huang, Chun Cao, Jingwei Xu

Los modelos de lenguaje extenso (LLM) basados en transformers han logrado un éxito notable, aunque su mecanismo de atención estándar incurre en costos computacionales y de memoria cuadráticos con respecto a la longitud de la secuencia, lo que supone un cuello de botella principal para el entrenamiento de contextos largos. Trabajos previos abordan este desafío en dos direcciones: (1) optimizaciones a nivel de kernel, que aceleran los operadores de atención densa y dispersa; y (2) estrategias a nivel de módulo, a menudo denominadas atención distribuida o entrenamiento paralelo de contexto, que escalan la atención a través de múltiples dispositivos. Sin embargo, la evaluación sistemática aún sigue siendo limitada: las comparaciones a nivel de operador a menudo son incompletas, mientras que las estrategias de paralelización de contexto son típicamente específicas del framework, con un análisis de rendimiento poco claro en distintos contextos. Para abordar estas brechas, proponemos un benchmark unificado que integra kernels de atención representativos y mecanismos de paralelización de contexto con una interfaz modular y extensible para su evaluación. El benchmark evalúa los métodos en dos dimensiones críticas: (1) los patrones de máscara de atención, que afectan fuertemente la eficiencia, escalabilidad y usabilidad, y (2) la longitud de secuencia y la escala distribuida, que determinan el rendimiento en entrenamientos de contexto extremadamente largo. Mediante experimentos exhaustivos en un clúster de hasta 96 GPUs, nuestro benchmark permite comparaciones reproducibles, destaca compensaciones específicas de cada método y proporciona orientación práctica para diseñar e implementar mecanismos de atención en el entrenamiento de LLM de contexto largo.

Comunicación para la Finalización: Modelado de Flujos de Trabajo Colaborativos con Comunicación Inteligente entre Múltiples Agentes
Communication to Completion: Modeling Collaborative Workflows with Intelligent Multi-Agent Communication

Oct 22

ByYiming Lu, Xun Wang, Simin Ma, Shujian Liu, Sathish Reddy Indurthi, Song Wang, Haoyun Deng, Fei Liu, Kaiqiang Song

El trabajo en equipo para tareas complejas en entornos laborales requiere estrategias de comunicación diversas, pero los sistemas actuales de LLM multiagente carecen de marcos sistemáticos para la comunicación orientada a tareas. Presentamos Communication to Completion (C2C), un marco escalable que aborda esta brecha mediante dos innovaciones clave: (1) el Factor de Alineación (AF), una métrica novedosa que cuantifica la alineación de los agentes con la tarea e impacta directamente en la eficiencia del trabajo, y (2) un Marco de Acción Secuencial que integra la ejecución paso a paso con decisiones de comunicación inteligentes. C2C permite a los agentes tomar decisiones de comunicación conscientes del costo, mejorando dinámicamente la comprensión de la tarea mediante interacciones específicas. Evaluamos C2C en flujos de trabajo de codificación realistas en tres niveles de complejidad y tamaños de equipo de 5 a 17 agentes, comparándolo con líneas base sin comunicación y de pasos fijos. Los resultados muestran que C2C reduce el tiempo de finalización de tareas en aproximadamente un 40% con costos de comunicación aceptables. El marco completa todas las tareas exitosamente en configuraciones estándar y mantiene su efectividad a escala. C2C establece tanto una base teórica para medir la efectividad de la comunicación en sistemas multiagente como un marco práctico para tareas colaborativas complejas.

MSC-Bench: Un Punto de Referencia Riguroso para la Orquestación de Herramientas Multi-Servidor
MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration

Oct 22

ByJia-Kai Dong, I-Wei Huang, Chun-Tin Wu, Yi-Tien Tsai

Presentamos MSC-Bench, un benchmark a gran escala para evaluar la orquestación de herramientas multi-salto y de extremo a extremo por parte de agentes de LLM en un ecosistema jerárquico de Protocolo Modelo-Contexto (MCP). Los benchmarks existentes a menudo evalúan las herramientas de forma aislada, ignorando desafíos como el solapamiento funcional y la orquestación entre servidores, lo que conduce a evaluaciones excesivamente optimistas. MSC-Bench aborda estas carencias construyendo una verdad de base mediante 'conjuntos de funciones equivalentes', permitiendo el uso de métricas objetivas como la puntuación F1 y reduciendo la dependencia de la evaluación mediante LLM-como-juez. Organizado como un currículum de cinco niveles, evalúa sistemáticamente las capacidades de los agentes, desde la orquestación de una sola herramienta hasta la planificación compleja entre servidores, y la robustez frente a solicitudes fuera de alcance. Los experimentos revelan que las jerarquías rígidas pueden perjudicar el rendimiento sin estrategias co-diseñadas, y que incluso los agentes más avanzados presentan debilidades sistémicas en cuanto a robustez. MSC-Bench proporciona un marco de diagnóstico para exponer estas limitaciones y guiar el desarrollo de agentes que utilicen herramientas de forma más capaz y eficiente. El benchmark y los recursos están disponibles públicamente en https://github.com/snooow1029/MSC_Bench.

Adamas: Atención Dispersa de Hadamard para una Inferencia Eficiente en Contextos Largos
Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference

Oct 21

BySiyuan Yan, Guo-Qing Jiang, Yuchen Zhang, Xiaoxing Ma, Ran Zhu, Chun Cao, Jingwei Xu

Los grandes modelos de lenguaje (LLM) admiten actualmente ventanas de contexto de cientos de miles a millones de tokens, lo que permite aplicaciones como la resumen de documentos extensos, la síntesis de código a gran escala, la respuesta a preguntas sobre múltiples documentos y el diálogo multiturno persistente. Sin embargo, estos contextos extendidos exacerban el costo cuadrático de la autoatención, generando una latencia severa en la decodificación autoregresiva. Los métodos existentes de atención dispersa alivian estos costos, pero se basan en patrones heurísticos que tienen dificultades para recuperar pares clave-valor (KV) críticos para cada consulta, lo que resulta en una degradación de la precisión. Presentamos Adamas, un mecanismo de atención dispersa ligero pero altamente preciso diseñado para inferencia de contexto largo. Adamas aplica la transformada de Hadamard, la segmentación en contenedores y la compresión de 2 bits para producir representaciones compactas, y aprovecha la estimación de distancia Manhattan para selecciones eficientes de top-k. Los experimentos muestran que Adamas iguala la precisión de la atención completa con un presupuesto de solo 64 tokens, logra un rendimiento casi sin pérdidas con 128 tokens, y admite hasta 8 veces más dispersión que los métodos anteriores de vanguardia (SOTA), mientras ofrece aceleraciones de hasta 4.4x en autoatención y 1.5x de extremo a extremo en secuencias de 32K de longitud. Notablemente, Adamas alcanza una perplejidad comparable o incluso menor que la atención completa, subrayando su eficacia para mantener la precisión bajo una dispersión agresiva.

ComProScanner: Un marco basado en agentes múltiples para la extracción estructurada de datos composición-propiedad de la literatura científica
ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature

Oct 23

ByAritra Roy, Enrico Grisan, John Buckeridge, Chiara Gattinoni

Desde la aparición de diversos modelos de lenguaje grande preentrenados, la extracción de conocimiento estructurado a partir de texto científico ha experimentado un cambio revolucionario en comparación con las técnicas tradicionales de aprendizaje automático o procesamiento del lenguaje natural. A pesar de estos avances, las herramientas automatizadas accesibles que permitan a los usuarios construir, validar y visualizar conjuntos de datos a partir de la extracción de literatura científica siguen siendo escasas. Por ello, hemos desarrollado ComProScanner, una plataforma autónoma de múltiples agentes que facilita la extracción, validación, clasificación y visualización de composiciones y propiedades químicas legibles por máquina, integrada con datos de síntesis de artículos de revistas para la creación integral de bases de datos. Evaluamos nuestro marco de trabajo utilizando 100 artículos de revistas frente a 10 modelos de lenguaje grande diferentes, incluyendo tanto modelos de código abierto como propietarios, para extraer composiciones altamente complejas asociadas a materiales piezoeléctricos cerámicos y los correspondientes coeficientes de deformación piezoeléctrica (d33), motivados por la falta de un conjunto de datos extenso para dichos materiales. DeepSeek-V3-0324 superó a todos los modelos con una precisión general significativa de 0.82. Este marco de trabajo proporciona un paquete sencillo, fácil de usar y listo para utilizar, destinado a extraer datos experimentales altamente complejos enterrados en la literatura para construir conjuntos de datos de aprendizaje automático o aprendizaje profundo.

Emergencia de Codificaciones Lineales de la Verdad en Modelos de Lenguaje
Emergence of Linear Truth Encodings in Language Models

Oct 17

ByShauli Ravfogel, Gilad Yehudai, Tal Linzen, Joan Bruna, Alberto Bietti

Estudios recientes de sondeo revelan que los grandes modelos de lenguaje exhiben subespacios lineales que separan enunciados verdaderos de falsos, aunque el mecanismo detrás de su surgimiento no está claro. Introducimos un modelo juguete transparente de transformer de una sola capa que reproduce dichos subespacios de verdad de extremo a extremo y expone una ruta concreta mediante la cual pueden surgir. Estudiamos un escenario simple en el que puede emerger la codificación de la verdad: una distribución de datos donde los enunciados fácticos co-ocurren con otros enunciados fácticos (y viceversa), lo que incentiva al modelo a aprender esta distinción para reducir la pérdida del modelo de lenguaje en tokens futuros. Corroboramos este patrón con experimentos en modelos de lenguaje preentrenados. Finalmente, en el escenario juguete observamos una dinámica de aprendizaje bifásica: las redes primero memorizan asociaciones fácticas individuales en pocos pasos, luego —a lo largo de un horizonte más prolongado— aprenden a separar linealmente lo verdadero de lo falso, lo que a su vez reduce la pérdida de modelado del lenguaje. En conjunto, estos resultados proporcionan tanto una demostración mecanicista como una motivación empírica de cómo y por qué pueden surgir representaciones lineales de la verdad en los modelos de lenguaje.