Artículos de investigación en IA seleccionados diariamente con traducciones
Este informe presenta VibeVoice, un modelo novedoso diseñado para sintetizar discursos de larga duración con múltiples hablantes mediante el uso de difusión de siguiente token, un método unificado para modelar datos continuos mediante la generación autoregresiva de vectores latentes a través de difusión. Para lograrlo, introducimos un nuevo tokenizador de habla continua que, en comparación con el popular modelo Encodec, mejora la compresión de datos en 80 veces mientras mantiene un rendimiento comparable. El tokenizador preserva eficazmente la fidelidad del audio y aumenta significativamente la eficiencia computacional para procesar secuencias largas. Así, VibeVoice puede sintetizar discursos de hasta 90 minutos (en una ventana de contexto de 64K) con un máximo de 4 hablantes, capturando el "ambiente" conversacional auténtico y superando a los modelos de diálogo tanto de código abierto como propietarios.
Los avances recientes en la alineación de modelos de lenguaje grandes mediante aprendizaje por refuerzo han logrado mejoras notables en la resolución de problemas de razonamiento complejo, pero a costa de costosos despliegues en política y una exploración limitada de diversos caminos de razonamiento. En este trabajo, presentamos TreePO, que incluye un algoritmo de despliegue autoguiado que considera la generación de secuencias como un proceso de búsqueda estructurado en árbol. Compuesto por una política de muestreo dinámico de árboles y decodificación de segmentos de longitud fija, TreePO aprovecha la incertidumbre local para garantizar ramificaciones adicionales. Al amortizar el cálculo a través de prefijos comunes y podar tempranamente las rutas de bajo valor, TreePO esencialmente reduce la carga computacional por actualización mientras preserva o mejora la diversidad de exploración. Las contribuciones clave incluyen: (1) un algoritmo de muestreo por segmentos que alivia la carga de la caché KV mediante segmentos contiguos y genera nuevas ramificaciones junto con un mecanismo de parada temprana; (2) una estimación de ventaja a nivel de segmento basada en árboles que considera tanto la optimización de políticas proximales global como local; y (3) un análisis sobre la efectividad de la divergencia dinámica impulsada por probabilidad y calidad, junto con una estrategia de retroceso. Validamos empíricamente la mejora en el rendimiento de TreePO en un conjunto de benchmarks de razonamiento y el ahorro de eficiencia en horas de GPU desde un 22% hasta un 43% en el diseño de muestreo para los modelos entrenados, mostrando además una reducción de hasta un 40% a nivel de trayectoria y un 35% a nivel de token en el cálculo de muestreo para los modelos existentes. Al ofrecer una mejora gratuita en la eficiencia de inferencia, TreePO revela un camino práctico hacia la escalabilidad del post-entrenamiento basado en RL con menos muestras y menor cálculo. La página principal se encuentra en https://m-a-p.ai/TreePO.
Presentamos CMPhysBench, diseñado para evaluar la competencia de los Modelos de Lenguaje de Gran Escala (LLMs) en Física de la Materia Condensada, como un nuevo punto de referencia. CMPhysBench está compuesto por más de 520 preguntas meticulosamente curadas a nivel de posgrado, que cubren tanto subcampos representativos como marcos teóricos fundamentales de la física de la materia condensada, como el magnetismo, la superconductividad, los sistemas fuertemente correlacionados, entre otros. Para garantizar una comprensión profunda del proceso de resolución de problemas, nos enfocamos exclusivamente en problemas de cálculo, requiriendo que los LLMs generen soluciones completas de manera independiente. Al mismo tiempo, aprovechando las representaciones basadas en árboles de expresiones, introducimos la puntuación de Distancia de Edición de Expresiones Escalable (SEED, por sus siglas en inglés), que proporciona un crédito parcial detallado (no binario) y ofrece una evaluación más precisa de la similitud entre la predicción y la verdad de referencia. Nuestros resultados muestran que incluso los mejores modelos, como Grok-4, alcanzan solo un promedio de 36 en la puntuación SEED y un 28% de precisión en CMPhysBench, lo que subraya una brecha significativa en las capacidades, especialmente para este dominio práctico y de vanguardia en comparación con la física tradicional. El código y el conjunto de datos están disponibles públicamente en https://github.com/CMPhysBench/CMPhysBench.
La edición local 3D de regiones específicas es crucial para la industria de los videojuegos y la interacción con robots. Los métodos recientes suelen editar imágenes renderizadas de múltiples vistas y luego reconstruir modelos 3D, pero enfrentan desafíos para preservar con precisión las regiones no editadas y la coherencia general. Inspirados por los modelos generativos 3D estructurados, proponemos VoxHammer, un enfoque novedoso que no requiere entrenamiento y realiza ediciones precisas y coherentes en el espacio latente 3D. Dado un modelo 3D, VoxHammer primero predice su trayectoria de inversión y obtiene sus latentes invertidos y tokens clave-valor en cada paso de tiempo. Posteriormente, en la fase de eliminación de ruido y edición, reemplazamos las características de eliminación de ruido de las regiones preservadas con los latentes invertidos correspondientes y los tokens clave-valor almacenados. Al retener estas características contextuales, este enfoque asegura una reconstrucción consistente de las áreas preservadas y una integración coherente de las partes editadas. Para evaluar la consistencia de las regiones preservadas, construimos Edit3D-Bench, un conjunto de datos anotado por humanos que comprende cientos de muestras, cada una con regiones de edición 3D cuidadosamente etiquetadas. Los experimentos demuestran que VoxHammer supera significativamente a los métodos existentes en términos de consistencia 3D de las regiones preservadas y calidad general. Nuestro método promete sintetizar datos editados de alta calidad en pares, sentando así la base de datos para la generación 3D en contexto. Visite nuestra página del proyecto en https://huanngzh.github.io/VoxHammer-Page/.
Los modelos existentes de avatares de video pueden producir animaciones humanas fluidas, pero tienen dificultades para ir más allá de la mera similitud física y capturar la esencia auténtica de un personaje. Sus movimientos suelen sincronizarse con señales de bajo nivel, como el ritmo del audio, careciendo de una comprensión semántica más profunda de la emoción, la intención o el contexto. Para cerrar esta brecha, proponemos un marco diseñado para generar animaciones de personajes que no solo sean físicamente plausibles, sino también semánticamente coherentes y expresivas. Nuestro modelo, OmniHuman-1.5, se basa en dos contribuciones técnicas clave. En primer lugar, aprovechamos los Modelos de Lenguaje Multimodales de Gran Escala para sintetizar una representación textual estructurada de condiciones que proporciona una guía semántica de alto nivel. Esta guía dirige nuestro generador de movimientos más allá de la sincronización rítmica simplista, permitiendo la producción de acciones que resuenan contextual y emocionalmente. En segundo lugar, para garantizar la fusión efectiva de estas entradas multimodales y mitigar los conflictos intermodales, introducimos una arquitectura especializada Multimodal DiT con un novedoso diseño de Pseudo Último Fotograma. La sinergia de estos componentes permite que nuestro modelo interprete con precisión la semántica conjunta del audio, las imágenes y el texto, generando así movimientos profundamente coherentes con el personaje, la escena y el contenido lingüístico. Experimentos exhaustivos demuestran que nuestro modelo logra un rendimiento líder en un conjunto completo de métricas, incluyendo la precisión de sincronización labial, la calidad del video, la naturalidad del movimiento y la coherencia semántica con las indicaciones textuales. Además, nuestro enfoque muestra una notable extensibilidad a escenarios complejos, como aquellos que involucran múltiples personas y sujetos no humanos. Página de inicio: https://omnihuman-lab.github.io/v1_5/
Si bien los modelos de Mezcla de Expertos (MoE) logran una eficiencia notable al activar solo subconjuntos de parámetros, sufren de altos costos de acceso a memoria durante la inferencia. Las arquitecturas de capas de memoria ofrecen una alternativa atractiva con muy pocos accesos a memoria, pero intentos previos como UltraMem solo han igualado el rendimiento de modelos MoE de 2 expertos, quedándose significativamente por debajo de las configuraciones de última generación con 8 expertos. Presentamos UltraMemV2, una arquitectura de capas de memoria rediseñada que cierra esta brecha de rendimiento. Nuestro enfoque introduce cinco mejoras clave: integrar capas de memoria en cada bloque del transformador, simplificar la expansión de valores con proyecciones lineales únicas, adoptar el procesamiento de valores basado en FFN de PEER, implementar una inicialización de parámetros fundamentada y reequilibrar las proporciones de cálculo entre memoria y FFN. A través de una evaluación exhaustiva, demostramos que UltraMemV2 alcanza un rendimiento equivalente a los modelos MoE de 8 expertos con el mismo cómputo y parámetros, pero con un acceso a memoria significativamente menor. Notablemente, UltraMemV2 muestra un rendimiento superior en tareas intensivas en memoria, con mejoras de +1.6 puntos en memorización de contexto largo, +6.2 puntos en memorización de múltiples rondas y +7.9 puntos en aprendizaje en contexto. Validamos nuestro enfoque a gran escala con modelos de hasta 2.5 mil millones de parámetros activados de un total de 120 mil millones, y establecemos que la densidad de activación tiene un mayor impacto en el rendimiento que el recuento total de parámetros dispersos. Nuestro trabajo lleva las arquitecturas de capas de memoria a un nivel de rendimiento equivalente a los modelos MoE de última generación, presentando una alternativa convincente para el cómputo disperso eficiente.
Inferir las propiedades físicas de escenas 3D a partir de información visual es una tarea crucial pero desafiante para crear mundos virtuales interactivos y realistas. Mientras que los humanos comprenden intuitivamente características de los materiales como la elasticidad o la rigidez, los métodos existentes suelen depender de una optimización lenta por escena, lo que limita su generalización y aplicación. Para abordar este problema, presentamos PIXIE, un método novedoso que entrena una red neuronal generalizable para predecir propiedades físicas en múltiples escenas a partir de características visuales 3D utilizando únicamente pérdidas supervisadas. Una vez entrenada, nuestra red de avance rápido puede realizar inferencias rápidas de campos de materiales plausibles, lo que, junto con una representación estática de la escena aprendida como Gaussian Splatting, permite simulaciones físicas realistas bajo fuerzas externas. Para facilitar esta investigación, también recopilamos PIXIEVERSE, uno de los conjuntos de datos más grandes conocidos de activos 3D emparejados con anotaciones de materiales físicos. Evaluaciones exhaustivas demuestran que PIXIE es aproximadamente 1.46-4.39 veces mejor y órdenes de magnitud más rápido que los métodos de optimización en tiempo de prueba. Al aprovechar características visuales preentrenadas como CLIP, nuestro método también puede generalizar de manera zero-shot a escenas del mundo real, a pesar de haber sido entrenado únicamente con datos sintéticos. https://pixie-3d.github.io/
Los recientes avances en los LLM han convertido a la investigación científica automatizada en la próxima frontera en el camino hacia la superinteligencia artificial. Sin embargo, estos sistemas están limitados ya sea a tareas de alcance reducido o a las capacidades creativas limitadas de los LLM. Proponemos Spacer, un sistema de descubrimiento científico que desarrolla conceptos creativos y fundamentados en hechos sin intervención externa. Spacer intenta lograr esto mediante la "descontextualización deliberada", un enfoque que descompone la información en unidades atómicas —palabras clave— y extrae creatividad de conexiones inexploradas entre ellas. Spacer consta de (i) Nuri, un motor de inspiración que construye conjuntos de palabras clave, y (ii) el Pipeline de Manifestación que refina estos conjuntos en declaraciones científicas elaboradas. Nuri extrae conjuntos de palabras clave novedosos y de alto potencial de un grafo de palabras clave construido con 180,000 publicaciones académicas en campos biológicos. El Pipeline de Manifestación encuentra vínculos entre palabras clave, analiza su estructura lógica, valida su plausibilidad y, finalmente, redacta conceptos científicos originales. Según nuestros experimentos, la métrica de evaluación de Nuri clasifica con precisión publicaciones de alto impacto con un puntaje AUROC de 0.737. Nuestro Pipeline de Manifestación también reconstruye con éxito conceptos centrales de los últimos artículos de revistas de primer nivel únicamente a partir de sus conjuntos de palabras clave. Un sistema de puntuación basado en LLM estima que esta reconstrucción fue sólida en más del 85% de los casos. Finalmente, nuestro análisis del espacio de incrustación muestra que los resultados de Spacer son significativamente más similares a las publicaciones líderes en comparación con los de los LLM de última generación.
Los modelos fundamentales de video recientes, como SAM2, destacan en la segmentación de video guiada al tratar las máscaras como una primitiva de propósito general. Sin embargo, muchos escenarios del mundo real requieren segmentación no guiada que busca detectar y rastrear todos los objetos en un video sin señales externas, lo que deja el panorama actual fragmentado en modelos y pipelines específicos para cada tarea. Replanteamos la segmentación de video en streaming como predicción secuencial de máscaras, análoga al modelado de lenguaje, e introducimos el Modelo de Segmentación Universal Autoregresivo (AUSM), una única arquitectura que unifica tanto la segmentación de video guiada como la no guiada. Basado en modelos de estado-espacio recientes, AUSM mantiene un estado espacial de tamaño fijo y se escala a flujos de video de longitud arbitraria. Además, todos los componentes de AUSM están diseñados para entrenamiento paralelo a través de los fotogramas, logrando aceleraciones significativas sobre el entrenamiento iterativo. En benchmarks estándar (DAVIS17, YouTube-VOS 2018 & 2019, MOSE, YouTube-VIS 2019 & 2021, y OVIS), AUSM supera a los métodos previos de segmentación universal de video en streaming y alcanza hasta 2.5 veces más rápido el entrenamiento en secuencias de 16 fotogramas.
Los modelos de difusión visual han logrado avances notables, aunque generalmente se entrenan en resoluciones limitadas debido a la falta de datos de alta resolución y a los recursos computacionales restringidos, lo que dificulta su capacidad para generar imágenes o videos de alta fidelidad en resoluciones más altas. Esfuerzos recientes han explorado estrategias sin ajustes para aprovechar el potencial no explotado de generación visual de mayor resolución en modelos preentrenados. Sin embargo, estos métodos aún tienden a producir contenido visual de baja calidad con patrones repetitivos. El obstáculo clave radica en el inevitable aumento de información de alta frecuencia cuando el modelo genera contenido visual que excede su resolución de entrenamiento, lo que conduce a patrones repetitivos no deseados derivados de errores acumulativos. En este trabajo, proponemos CineScale, un nuevo paradigma de inferencia para habilitar la generación visual de mayor resolución. Para abordar los diversos problemas introducidos por los dos tipos de arquitecturas de generación de video, proponemos variantes específicas adaptadas a cada una. A diferencia de los métodos base existentes que se limitan a la generación de T2I y T2V de alta resolución, CineScale amplía el alcance al permitir la síntesis de I2V y V2V de alta resolución, construido sobre marcos de generación de video de código abierto de última generación. Experimentos extensos validan la superioridad de nuestro paradigma al extender las capacidades de generación visual de mayor resolución tanto para modelos de imagen como de video. Notablemente, nuestro enfoque permite la generación de imágenes en 8k sin ningún ajuste fino y logra la generación de videos en 4k con solo un ajuste mínimo mediante LoRA. Las muestras de video generadas están disponibles en nuestro sitio web: https://eyeline-labs.github.io/CineScale/.
Los métodos más avanzados (state-of-the-art, SOTA) para la animación de personajes impulsada por audio demuestran un rendimiento prometedor en escenarios que involucran principalmente habla y canto. Sin embargo, a menudo se quedan cortos en producciones más complejas de cine y televisión, que requieren elementos sofisticados como interacciones de personajes matizadas, movimientos corporales realistas y trabajo dinámico de cámara. Para abordar este desafío de larga data de lograr animación de personajes a nivel cinematográfico, proponemos un modelo impulsado por audio, al que nos referimos como Wan-S2V, construido sobre Wan. Nuestro modelo logra una expresividad y fidelidad significativamente mejoradas en contextos cinematográficos en comparación con los enfoques existentes. Realizamos experimentos exhaustivos, comparando nuestro método con modelos de vanguardia como Hunyuan-Avatar y Omnihuman. Los resultados experimentales demuestran consistentemente que nuestro enfoque supera significativamente estas soluciones existentes. Además, exploramos la versatilidad de nuestro método a través de sus aplicaciones en la generación de videos de larga duración y la edición precisa de sincronización labial en videos.
Los enfoques recientes de generación de mallas suelen tokenizar mallas triangulares en secuencias de tokens y entrenar modelos autoregresivos para generar estos tokens de manera secuencial. A pesar de los avances significativos, estas secuencias de tokens inevitablemente reutilizan vértices múltiples veces para representar completamente mallas múltiples, ya que cada vértice es compartido por varias caras. Esta redundancia conduce a secuencias de tokens excesivamente largas y procesos de generación ineficientes. En este artículo, proponemos un marco eficiente que genera mallas artísticas tratando vértices y caras por separado, reduciendo significativamente la redundancia. Empleamos un modelo autoregresivo exclusivamente para la generación de vértices, disminuyendo el número de tokens a aproximadamente el 23\% de lo requerido por el tokenizador más compacto existente. Luego, aprovechamos un transformador bidireccional para completar la malla en un solo paso, capturando las relaciones entre vértices y construyendo la matriz de adyacencia que define las caras de la malla. Para mejorar aún más la calidad de la generación, introducimos un potenciador de fidelidad para refinar la posición de los vértices en arreglos más naturales y proponemos un marco de post-procesamiento para eliminar conexiones de aristas no deseadas. Los resultados experimentales muestran que nuestro método logra una velocidad más de 8 veces mayor en la generación de mallas en comparación con los enfoques más avanzados, mientras produce una calidad de malla superior.
Los modelos de lenguaje de gran escala (LLMs) con razonamiento en cadena de pensamiento han demostrado capacidades notables para resolver problemas, pero controlar su esfuerzo computacional sigue siendo un desafío significativo para su implementación práctica. Sistemas propietarios recientes como la serie gpt-oss de OpenAI han introducido modos operativos discretos para un control intuitivo del razonamiento, pero la comunidad de código abierto no ha logrado alcanzar tales capacidades. En este artículo, presentamos ThinkDial, el primer marco de trabajo de extremo a extremo de receta abierta que implementa con éxito un razonamiento controlable al estilo gpt-oss mediante modos operativos discretos. Nuestro sistema permite cambiar sin problemas entre tres regímenes de razonamiento distintos: Modo Alto (capacidad de razonamiento completa), Modo Medio (reducción del 50 por ciento de tokens con una degradación del rendimiento menor al 10 por ciento) y Modo Bajo (reducción del 75 por ciento de tokens con una degradación del rendimiento menor al 15 por ciento). Logramos esto a través de un paradigma de entrenamiento de extremo a extremo que integra el control de modo de presupuesto en toda la canalización: ajuste fino supervisado en modo de presupuesto que incorpora capacidades de razonamiento controlable directamente en el proceso de aprendizaje, y aprendizaje por refuerzo en dos fases con conciencia de presupuesto y conformación adaptativa de recompensas. Experimentos extensos demuestran que ThinkDial alcanza compensaciones objetivo entre compresión y rendimiento con reducciones claras en la longitud de las respuestas, manteniendo umbrales de rendimiento. El marco también exhibe fuertes capacidades de generalización en tareas fuera de distribución.
El surgimiento de los agentes de Investigación Profunda ha reducido sustancialmente el tiempo necesario para llevar a cabo tareas de investigación extensas. Sin embargo, estas tareas requieren inherentemente estándares rigurosos de precisión factual y exhaustividad, lo que hace necesaria una evaluación minuciosa antes de su adopción generalizada. En este artículo, proponemos ReportBench, un benchmark sistemático diseñado para evaluar la calidad del contenido de los informes de investigación generados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Nuestra evaluación se centra en dos dimensiones críticas: (1) la calidad y relevancia de la literatura citada, y (2) la fidelidad y veracidad de las afirmaciones dentro de los informes generados. ReportBench aprovecha artículos de revisión de alta calidad publicados en arXiv como referencias de estándar de oro, a partir de los cuales aplicamos ingeniería inversa de prompts para derivar instrucciones específicas del dominio y establecer un corpus de evaluación exhaustivo. Además, desarrollamos un marco automatizado basado en agentes dentro de ReportBench que analiza sistemáticamente los informes generados mediante la extracción de citas y afirmaciones, verificando la fidelidad del contenido citado frente a las fuentes originales y validando afirmaciones no citadas utilizando recursos basados en la web. Las evaluaciones empíricas demuestran que los agentes comerciales de Investigación Profunda, como los desarrollados por OpenAI y Google, generan informes más completos y confiables que los LLMs independientes potenciados con herramientas de búsqueda o navegación. Sin embargo, aún existe un margen considerable de mejora en términos de la amplitud y profundidad de la cobertura de investigación, así como en la consistencia factual. El código completo y los datos se publicarán en el siguiente enlace: https://github.com/ByteDance-BandAI/ReportBench.
El descubrimiento de fármacos es un proceso complejo y que requiere muchos recursos, lo que hace que la predicción temprana de los resultados de aprobación sea crucial para optimizar las inversiones en investigación. Aunque los métodos clásicos de aprendizaje automático y aprendizaje profundo han mostrado potencial en la predicción de la aprobación de fármacos, su limitada interpretabilidad restringe su impacto. Aquí presentamos DrugReasoner, un modelo de lenguaje grande (LLM) basado en razonamiento, construido sobre la arquitectura LLaMA y ajustado con optimización de políticas relativas por grupos (GRPO) para predecir la probabilidad de aprobación de moléculas pequeñas. DrugReasoner integra descriptores moleculares con razonamiento comparativo frente a compuestos aprobados y no aprobados estructuralmente similares, generando predicciones junto con justificaciones paso a paso y puntuaciones de confianza. DrugReasoner logró un rendimiento robusto con un AUC de 0.732 y un puntaje F1 de 0.729 en el conjunto de validación, y 0.725 y 0.718 en el conjunto de prueba, respectivamente. Estos resultados superaron a los métodos convencionales, incluyendo regresión logística, máquinas de vectores de soporte y k-vecinos más cercanos, y mostraron un rendimiento competitivo en comparación con XGBoost. En un conjunto de datos externo independiente, DrugReasoner superó tanto a los métodos base como al modelo ChemAP recientemente desarrollado, logrando un AUC de 0.728 y un puntaje F1 de 0.774, mientras mantenía una alta precisión y una sensibilidad equilibrada, demostrando robustez en escenarios del mundo real. Estos hallazgos demuestran que DrugReasoner no solo ofrece una precisión predictiva competitiva, sino que también mejora la transparencia a través de sus salidas de razonamiento, abordando así un cuello de botella clave en el descubrimiento de fármacos asistido por IA. Este estudio resalta el potencial de los LLM aumentados con razonamiento como herramientas interpretables y efectivas para la toma de decisiones farmacéuticas.
Las leyes de escalado empírico han impulsado la evolución de los modelos de lenguaje grandes (LLMs), sin embargo, sus coeficientes cambian cada vez que se modifica la arquitectura del modelo o la tubería de datos. Los modelos de Mezcla de Expertos (MoE), ahora estándar en los sistemas de vanguardia, introducen una nueva dimensión de dispersión que los modelos densos actuales pasan por alto. Investigamos cómo la dispersión en MoE influye en dos regímenes de capacidad distintos: memorización y razonamiento. Entrenamos familias de Transformers MoE que varían sistemáticamente el número total de parámetros, los parámetros activos y el enrutamiento top-k, manteniendo fijo el presupuesto de cómputo. Para cada modelo, registramos la pérdida durante el pre-entrenamiento, la pérdida en tareas posteriores y la precisión en las tareas, lo que nos permite separar la brecha de generalización entre entrenamiento y prueba de la brecha entre pérdida y precisión. Los puntos de referencia de memorización mejoran monótonamente con el número total de parámetros, reflejando la pérdida de entrenamiento. En contraste, el rendimiento en razonamiento se satura e incluso puede retroceder a pesar de las mejoras continuas tanto en el número total de parámetros como en la pérdida de entrenamiento. Alterar solo el top-k tiene poco efecto cuando los parámetros activos son constantes, y los hiperparámetros clásicos, como la tasa de aprendizaje y la inicialización, modulan la brecha de generalización en la misma dirección que la dispersión. Ni el aprendizaje por refuerzo posterior al entrenamiento (GRPO) ni el cómputo adicional durante la prueba rescatan el déficit de razonamiento de los modelos excesivamente dispersos. Nuestros puntos de control de modelos, código y registros son de código abierto en https://github.com/rioyokotalab/optimal-sparsity.
La resolución de problemas científicos plantea desafíos únicos para los LLM, ya que requieren tanto un profundo conocimiento del dominio como la capacidad de aplicar dicho conocimiento a través de razonamientos complejos. Aunque los sistemas automatizados de razonamiento científico tienen un gran potencial para asistir a los científicos humanos, actualmente no existe un punto de referencia holístico ampliamente adoptado para evaluar el razonamiento científico, y pocos enfoques desentrañan sistemáticamente los roles distintos del conocimiento y el razonamiento en estas tareas. Para abordar estas brechas, presentamos SciReas, un conjunto diverso de puntos de referencia existentes para tareas de razonamiento científico, y SciReas-Pro, un subconjunto selectivo que requiere un razonamiento más complejo. Nuestra evaluación holística revela insights sobre el desempeño en razonamiento científico que permanecen ocultos al depender únicamente de puntos de referencia individuales. Luego, proponemos KRUX, un marco de sondeo para estudiar los roles distintos del razonamiento y el conocimiento en tareas científicas. Combinando ambos, realizamos un análisis en profundidad que arroja varios hallazgos clave: (1) Recuperar conocimiento relevante para la tarea a partir de los parámetros del modelo es un cuello de botella crítico para los LLM en el razonamiento científico; (2) Los modelos de razonamiento se benefician consistentemente de la adición de conocimiento externo en contexto, además de la mejora en el razonamiento; (3) Mejorar el razonamiento verbalizado aumenta la capacidad de los LLM para resaltar conocimiento relevante para la tarea. Finalmente, realizamos un análisis ligero, comparando nuestra composición de datos centrada en la ciencia con esfuerzos concurrentes en SFT de CoT largo, y lanzamos SciLit01, una sólida línea base de 8B para el razonamiento científico.
El inpainting 3D a menudo depende del inpainting de imágenes 2D multi-vista, donde las inconsistencias inherentes entre las diferentes vistas inpintadas pueden resultar en texturas borrosas, discontinuidades espaciales y artefactos visuales distractores. Estas inconsistencias representan desafíos significativos al buscar una completación precisa y realista de objetos 3D, particularmente en aplicaciones que exigen alta fidelidad y coherencia estructural. Para superar estas limitaciones, proponemos ObjFiller-3D, un método novedoso diseñado para la completación y edición de objetos 3D de alta calidad y consistencia. En lugar de emplear un modelo convencional de inpainting de imágenes 2D, nuestro enfoque aprovecha una selección curada de modelos de edición de video de última generación para rellenar las regiones enmascaradas de objetos 3D. Analizamos la brecha de representación entre 3D y videos, y proponemos una adaptación de un modelo de inpainting de video para el inpainting de escenas 3D. Además, introducimos un método de inpainting 3D basado en referencias para mejorar aún más la calidad de la reconstrucción. Los experimentos en diversos conjuntos de datos muestran que, en comparación con métodos anteriores, ObjFiller-3D produce reconstrucciones más fieles y detalladas (PSNR de 26.6 frente a NeRFiller (15.9) y LPIPS de 0.19 frente a Instant3dit (0.25)). Además, demuestra un fuerte potencial para su implementación práctica en aplicaciones de edición 3D del mundo real. Página del proyecto: https://objfiller3d.github.io/ Código: https://github.com/objfiller3d/ObjFiller-3D.
Los Modelos de Lenguaje de Gran Escala (LLMs) tienen un buen desempeño en preguntas y respuestas generales, pero a menudo enfrentan dificultades en escenarios específicos de dominio. La Generación Aumentada por Recuperación (RAG) introduce conocimiento externo, pero sufre de alucinaciones y latencia debido a recuperaciones ruidosas. El preentrenamiento continuo internaliza el conocimiento del dominio, pero es costoso y carece de flexibilidad entre dominios. Atribuimos este desafío a la distribución de cola larga del conocimiento del dominio, que deja subutilizado el conocimiento interno parcial pero útil. Además, argumentamos que la adquisición de conocimiento debería ser progresiva, imitando el aprendizaje humano: primero comprender conceptos y luego aplicarlos en razonamientos complejos. Para abordar esto, proponemos Selct2Know (S2K), un marco rentable que internaliza el conocimiento del dominio mediante una estrategia de autoselección de conocimiento interno-externo y un ajuste fino supervisado selectivo. También introducimos una canalización de generación de datos de razonamiento estructurado e integramos GRPO para mejorar la capacidad de razonamiento. Los experimentos en benchmarks de preguntas y respuestas médicas, legales y financieras muestran que S2K supera consistentemente a los métodos existentes y se equipara con LLMs preentrenados en dominios específicos, pero con un costo significativamente menor.
Este artículo presenta MovieCORE, un novedoso conjunto de datos de respuesta a preguntas sobre videos (VQA) diseñado para explorar una comprensión cognitiva más profunda del contenido cinematográfico. A diferencia de los conjuntos de datos existentes que se centran en la comprensión superficial, MovieCORE enfatiza preguntas que involucran el pensamiento de Sistema 2, manteniéndose específicas al material visual. Presentamos un enfoque innovador de lluvia de ideas agentiva, utilizando múltiples modelos de lenguaje de gran escala (LLMs) como agentes de pensamiento para generar y refinar pares de preguntas y respuestas de alta calidad. Para evaluar la calidad del conjunto de datos, desarrollamos una serie de pruebas cognitivas que miden la profundidad, el potencial de provocación de pensamiento y la complejidad sintáctica. También proponemos un esquema de evaluación integral para valorar el rendimiento de los modelos VQA en tareas cognitivas más profundas. Para abordar las limitaciones de los modelos actuales de lenguaje y video (VLMs), introducimos un módulo de mejora agentiva, Mejora de Elección Agentiva (ACE, por sus siglas en inglés), que aumenta hasta en un 25% las capacidades de razonamiento del modelo después del entrenamiento. Nuestro trabajo contribuye a avanzar la comprensión cinematográfica en sistemas de IA y ofrece valiosas perspectivas sobre las capacidades y limitaciones de los modelos VQA actuales al enfrentarse a preguntas más desafiantes y matizadas sobre contenido fílmico. Nuestra página del proyecto, el conjunto de datos y el código están disponibles en https://joslefaure.github.io/assets/html/moviecore.html.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades excepcionales cuando se entrenan en entornos de ejecución ejecutables, destacándose especialmente en tareas de ingeniería de software mediante bucles de retroalimentación verificados. Sin embargo, los entornos de ejecución fundamentados, escalables y generalizables siguen siendo escasos, lo que limita el progreso en el entrenamiento de agentes de aprendizaje automático más capaces. Presentamos CTF-Dojo, el primer entorno de ejecución a gran escala diseñado específicamente para entrenar LLMs con retroalimentación verificable, que incluye 658 desafíos funcionales de estilo Capture-The-Flag (CTF) encapsulados en Docker con garantía de reproducibilidad. Para permitir un escalado rápido sin intervención manual, desarrollamos CTF-Forge, una canalización automatizada que transforma artefactos disponibles públicamente en entornos de ejecución listos para usar en minutos, eliminando las semanas de configuración experta tradicionalmente requeridas. Entrenamos agentes basados en LLM con solo 486 trayectorias de alta calidad y verificadas en ejecución de CTF-Dojo, logrando mejoras absolutas de hasta el 11.6% sobre líneas base sólidas en tres puntos de referencia competitivos: InterCode-CTF, NYU CTF Bench y Cybench. Nuestro modelo de 32B con mejor rendimiento alcanza un 31.9% en Pass@1, estableciendo un nuevo estado del arte de peso abierto que rivaliza con modelos de vanguardia como DeepSeek-V3-0324 y Gemini-2.5-Flash. Al enmarcar las tareas de estilo CTF como un punto de referencia para el aprendizaje de agentes ejecutables, CTF-Dojo demuestra que las señales de entrenamiento fundamentadas en la ejecución no solo son efectivas, sino también cruciales para avanzar en el desarrollo de agentes de aprendizaje automático de alto rendimiento sin depender de sistemas propietarios costosos.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han transformado nuestro mundo con avances significativos en la ciencia, la ingeniería y la sociedad a través de aplicaciones que van desde descubrimientos científicos y diagnósticos médicos hasta chatbots. A pesar de su ubicuidad y utilidad, los mecanismos subyacentes de los LLMs permanecen ocultos dentro de miles de millones de parámetros y estructuras complejas, lo que hace que su arquitectura interna y procesos cognitivos sean difíciles de comprender. Abordamos esta brecha adoptando enfoques para entender la cognición emergente en biología y desarrollando un marco basado en redes que vincula habilidades cognitivas, arquitecturas de LLMs y conjuntos de datos, marcando un cambio de paradigma en el análisis de modelos fundamentales. La distribución de habilidades en las comunidades de módulos demuestra que, aunque los LLMs no se alinean estrictamente con la especialización focalizada observada en sistemas biológicos específicos, exhiben comunidades únicas de módulos cuyos patrones emergentes de habilidades reflejan parcialmente la organización cognitiva distribuida pero interconectada que se observa en los cerebros de aves y pequeños mamíferos. Nuestros resultados numéricos destacan una divergencia clave entre los sistemas biológicos y los LLMs, donde la adquisición de habilidades se beneficia sustancialmente de interacciones dinámicas interregionales y la plasticidad neural. Al integrar principios de la ciencia cognitiva con el aprendizaje automático, nuestro marco proporciona nuevas perspectivas sobre la interpretabilidad de los LLMs y sugiere que las estrategias efectivas de ajuste fino deberían aprovechar dinámicas de aprendizaje distribuidas en lugar de intervenciones modulares rígidas.
Las capacidades avanzadas de razonamiento en los Modelos de Lenguaje de Gran Escala (LLMs) han provocado una mayor prevalencia de alucinaciones; sin embargo, la mayoría de los trabajos de mitigación se centran en el filtrado posterior en lugar de moldear las consultas que las desencadenan. Presentamos QueryBandits, un marco de bandidos que diseña estrategias de reescritura para maximizar un modelo de recompensa, que encapsula la propensión a la alucinación basándose en las sensibilidades de 17 características lingüísticas de la consulta de entrada y, por lo tanto, dirige proactivamente a los LLMs para evitar la generación de alucinaciones. En 13 benchmarks diversos de preguntas y respuestas (QA) y 1,050 consultas perturbadas léxicamente por conjunto de datos, nuestro QueryBandit contextual superior (Muestreo de Thompson) logra una tasa de éxito del 87.5% sobre una línea base sin reescritura y también supera a las indicaciones estáticas de cero disparos ("parafrasear" o "expandir") en un 42.6% y 60.3%, respectivamente. Por lo tanto, demostramos empíricamente la efectividad de QueryBandits para mitigar las alucinaciones mediante la intervención que toma la forma de una reescritura de consulta. Curiosamente, ciertas estrategias de indicación estática, que constituyen una parte considerable de la literatura actual sobre reescritura de consultas, tienen un arrepentimiento acumulado mayor que la línea base sin reescritura, lo que indica que las reescrituras estáticas pueden empeorar las alucinaciones. Además, descubrimos que los vectores de peso de características de regresión por brazo convergidos corroboran que no existe una única estrategia de reescritura óptima para todas las consultas. En este contexto, la reescritura guiada mediante la explotación de características semánticas con QueryBandits puede inducir cambios significativos en el comportamiento de salida a través de mecanismos de paso hacia adelante, evitando la necesidad de reentrenamiento o adaptación basada en gradientes.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado un rendimiento notable en numerosas tareas de generación. Sin embargo, alinearlos de manera efectiva con los comportamientos deseados sigue siendo un desafío significativo. La dirección de activaciones es un enfoque eficaz y rentable que modifica directamente las activaciones de los LLMs durante la etapa de inferencia, alineando sus respuestas con los comportamientos deseados y evitando el alto costo del ajuste fino. Los métodos existentes suelen intervenir de manera indiscriminada en todas las generaciones o dependen únicamente de la pregunta para determinar la intervención, lo que limita la evaluación precisa de la intensidad de la intervención. Para abordar esto, proponemos el marco de Dirección Flexible de Activaciones con Retroceso (FASB, por sus siglas en inglés), que determina dinámicamente tanto la necesidad como la intensidad de la intervención al rastrear los estados internos de los LLMs durante la generación, considerando tanto la pregunta como el contenido generado. Dado que intervenir después de detectar una desviación del comportamiento deseado suele ser demasiado tarde, proponemos además el mecanismo de retroceso para corregir los tokens desviados y guiar a los LLMs hacia el comportamiento deseado. Experimentos exhaustivos en el conjunto de datos TruthfulQA y seis conjuntos de datos de opción múltiple demuestran que nuestro método supera a los baselines. Nuestro código se publicará en https://github.com/gjw185/FASB.
Este estudio evalúa redes neuronales profundas para pronosticar distribuciones de probabilidad de rendimientos financieros. Se utilizan redes neuronales convolucionales 1D (CNN) y arquitecturas de memoria de corto y largo plazo (LSTM) para predecir los parámetros de tres distribuciones de probabilidad: normal, t de Student y t de Student asimétrica. Empleando funciones de pérdida personalizadas de log-verosimilitud negativa, los parámetros de las distribuciones se optimizan directamente. Los modelos se prueban en seis índices bursátiles principales (S\&P 500, BOVESPA, DAX, WIG, Nikkei 225 y KOSPI) utilizando métricas de evaluación probabilística, como el Log Predictive Score (LPS), el Continuous Ranked Probability Score (CRPS) y la Transformada Integral de Probabilidad (PIT). Los resultados muestran que los modelos de aprendizaje profundo proporcionan pronósticos distribucionales precisos y compiten favorablemente con los modelos GARCH clásicos para la estimación del Valor en Riesgo (VaR). El modelo LSTM con distribución t de Student asimétrica obtiene el mejor desempeño en múltiples criterios de evaluación, capturando tanto las colas pesadas como la asimetría en los rendimientos financieros. Este trabajo demuestra que las redes neuronales profundas son alternativas viables a los modelos econométricos tradicionales para la evaluación de riesgos financieros y la gestión de carteras.
Las demandas legales se refieren a las solicitudes del demandante en un caso y son esenciales para guiar el razonamiento judicial y la resolución del caso. Si bien muchos trabajos se han centrado en mejorar la eficiencia de los profesionales del derecho, la investigación sobre cómo ayudar a los no profesionales (por ejemplo, los demandantes) sigue siendo inexplorada. Este artículo explora el problema de la generación de demandas legales basadas en los hechos de un caso dado. En primer lugar, construimos ClaimGen-CN, el primer conjunto de datos para la tarea de generación de demandas legales en chino, a partir de diversas disputas legales del mundo real. Además, diseñamos una métrica de evaluación específica para evaluar las demandas generadas, que abarca dos dimensiones esenciales: factualidad y claridad. Sobre esta base, realizamos una evaluación integral de modelos de lenguaje generales y específicos del ámbito legal de última generación en un escenario de zero-shot. Nuestros hallazgos destacan las limitaciones de los modelos actuales en precisión factual y claridad expresiva, señalando la necesidad de un desarrollo más específico en este dominio. Para fomentar una mayor exploración de esta importante tarea, pondremos el conjunto de datos a disposición del público.