Artículos de investigación en IA seleccionados diariamente con traducciones
El escalado en tiempo de prueba busca mejorar el rendimiento de razonamiento de los modelos de lenguaje de gran escala (LLMs) mediante la adición de recursos computacionales. Un enfoque prevalente en este campo son los métodos de escalado en tiempo de prueba basados en muestreo, los cuales mejoran el razonamiento generando múltiples trayectorias de razonamiento para una entrada dada durante la inferencia. Sin embargo, a pesar de su éxito práctico, los fundamentos teóricos siguen siendo poco explorados. En este artículo, proporcionamos el primer marco teórico para analizar los métodos de escalado en tiempo de prueba basados en muestreo, fundamentado en la perspectiva de la estimación de confianza. Basándonos en este marco, analizamos dos paradigmas dominantes: la autoconsistencia y la perplejidad, y revelamos limitaciones clave: la autoconsistencia sufre de un alto error de estimación, mientras que la perplejidad exhibe un error de modelado sustancial y una posible degradación de la convergencia del error de estimación. Para abordar estas limitaciones, introducimos RPC, un método híbrido que aprovecha nuestras ideas teóricas a través de dos componentes clave: la Consistencia de Perplejidad y la Poda de Razonamiento. La Consistencia de Perplejidad combina las fortalezas de la autoconsistencia y la perplejidad, aumentando la tasa de convergencia del error de estimación de lineal a exponencial mientras preserva el error del modelo. La Poda de Razonamiento previene la degradación eliminando trayectorias de razonamiento de baja probabilidad. Tanto el análisis teórico como los resultados empíricos en siete conjuntos de datos de referencia demuestran que RPC tiene un fuerte potencial para reducir el error de razonamiento. Notablemente, RPC logra un rendimiento de razonamiento comparable al de la autoconsistencia, no solo mejorando la fiabilidad de la confianza, sino también reduciendo los costos de muestreo en un 50%. El código y los recursos están disponibles en https://wnjxyk.github.io/RPC.
Avanzar en la inteligencia de las máquinas requiere desarrollar la capacidad de percibir a través de múltiples modalidades, de manera similar a cómo los humanos perciben el mundo. Presentamos OmniVinci, una iniciativa para construir un modelo de lenguaje multimodal (LLM) robusto y de código abierto. Estudiamos detenidamente las decisiones de diseño en la arquitectura del modelo y la curación de datos. Para la arquitectura del modelo, presentamos tres innovaciones clave: (i) OmniAlignNet para fortalecer la alineación entre los embeddings de visión y audio en un espacio latente multimodal compartido; (ii) Agrupación de Embeddings Temporales para capturar la alineación temporal relativa entre señales de visión y audio; y (iii) Embedding Temporal Rotacional Restringido para codificar información temporal absoluta en embeddings multimodales. Introducimos una pipeline de curación y síntesis que genera 24 millones de conversaciones unimodales y multimodales. Descubrimos que las modalidades se refuerzan mutuamente tanto en la percepción como en el razonamiento. Nuestro modelo, OmniVinci, supera a Qwen2.5-Omni con +19.05 en DailyOmni (comprensión multimodal), +1.7 en MMAR (audio) y +3.9 en Video-MME (visión), utilizando solo 0.2 billones de tokens de entrenamiento, una reducción de 6 veces en comparación con los 1.2 billones de Qwen2.5-Omni. Finalmente, demostramos las ventajas multimodales en aplicaciones de robótica, IA médica y fábricas inteligentes.
La edición de objetos 3D es fundamental para la creación de contenido interactivo en videojuegos, animación y robótica, sin embargo, los enfoques actuales siguen siendo ineficientes, inconsistentes y, a menudo, no logran preservar las regiones no editadas. La mayoría de los métodos se basan en la edición de representaciones multi-vista seguidas de una reconstrucción, lo que introduce artefactos y limita la practicidad. Para abordar estos desafíos, proponemos Nano3D, un marco de trabajo sin entrenamiento para la edición precisa y coherente de objetos 3D sin el uso de máscaras. Nano3D integra FlowEdit en TRELLIS para realizar ediciones localizadas guiadas por representaciones de vista frontal, y además introduce estrategias de fusión conscientes de la región, Voxel/Slat-Merge, que preservan adaptativamente la fidelidad estructural al garantizar la consistencia entre las áreas editadas y no editadas. Los experimentos demuestran que Nano3D logra una consistencia 3D y una calidad visual superiores en comparación con los métodos existentes. Basado en este marco, construimos el primer conjunto de datos a gran escala para edición 3D, Nano3D-Edit-100k, que contiene más de 100,000 pares de edición 3D de alta calidad. Este trabajo aborda desafíos de larga data tanto en el diseño de algoritmos como en la disponibilidad de datos, mejorando significativamente la generalidad y confiabilidad de la edición 3D, y sentando las bases para el desarrollo de modelos de edición 3D de avance directo. Página del proyecto: https://jamesyjl.github.io/Nano3D.
La edición de videos basada en instrucciones promete democratizar la creación de contenido, sin embargo, su progreso se ve severamente obstaculizado por la escasez de datos de entrenamiento a gran escala y de alta calidad. Presentamos Ditto, un marco holístico diseñado para abordar este desafío fundamental. En su núcleo, Ditto cuenta con una novedosa canalización de generación de datos que fusiona la diversidad creativa de un editor de imágenes líder con un generador de videos en contexto, superando el alcance limitado de los modelos existentes. Para hacer viable este proceso, nuestro marco resuelve la compensación prohibitiva entre costo y calidad mediante el empleo de una arquitectura de modelo eficiente y destilada, aumentada por un potenciador temporal, que reduce simultáneamente la sobrecarga computacional y mejora la coherencia temporal. Finalmente, para lograr una escalabilidad completa, toda esta canalización es impulsada por un agente inteligente que elabora instrucciones diversas y filtra rigurosamente la salida, garantizando el control de calidad a escala. Utilizando este marco, invertimos más de 12,000 días-GPU para construir Ditto-1M, un nuevo conjunto de datos de un millón de ejemplos de edición de video de alta fidelidad. Entrenamos nuestro modelo, Editto, en Ditto-1M con una estrategia de aprendizaje curricular. Los resultados demuestran una capacidad superior para seguir instrucciones y establecen un nuevo estado del arte en la edición de videos basada en instrucciones.
Trabajos recientes han demostrado que el ajuste fino estrecho puede producir modelos de lenguaje grandes (LLMs) ampliamente desalineados, un fenómeno denominado desalineación emergente (EM). Aunque preocupantes, estos hallazgos se limitaron al ajuste fino y a la dirección de activación, dejando fuera el aprendizaje en contexto (ICL). Por lo tanto, nos preguntamos: ¿surge la EM en el ICL? Encontramos que sí: en tres conjuntos de datos, tres modelos de vanguardia producen respuestas ampliamente desalineadas en tasas entre el 2% y el 17% dados 64 ejemplos estrechos en contexto, y hasta el 58% con 256 ejemplos. También examinamos los mecanismos de la EM al elicitar razonamientos paso a paso (mientras se mantienen inalterados los ejemplos en contexto). El análisis manual de la cadena de pensamiento resultante muestra que el 67.5% de los rastros desalineados justifican explícitamente salidas dañinas al adoptar una "persona" imprudente o peligrosa, lo que hace eco de resultados previos sobre la EM inducida por ajuste fino.
La síntesis de escenas urbanas 3D a gran escala, explorables y geométricamente precisas es una tarea desafiante pero valiosa para proporcionar aplicaciones inmersivas y corporizadas. Los desafíos radican en la falta de escaneos 3D de alta calidad y a gran escala del mundo real para entrenar modelos generativos generalizables. En este artículo, adoptamos un enfoque alternativo para crear escenas 3D a gran escala al combinar imágenes satelitales fácilmente disponibles, que proporcionan una geometría aproximada realista, y un modelo de difusión de dominio abierto para generar apariencias de alta calidad en primeros planos. Proponemos Skyfall-GS, el primer marco de creación de escenas 3D a escala de manzana urbana sin costosas anotaciones 3D, que también ofrece una exploración 3D inmersiva en tiempo real. Adaptamos una estrategia de refinamiento iterativo basada en un currículo para mejorar progresivamente la completitud geométrica y las texturas fotorrealistas. Experimentos extensos demuestran que Skyfall-GS proporciona una geometría más consistente entre vistas y texturas más realistas en comparación con los enfoques más avanzados. Página del proyecto: https://skyfall-gs.jayinnn.dev/
Los avances recientes en la generación visual basada en difusión han dependido en gran medida de modelos de difusión latente con autoencoders variacionales (VAEs). Aunque efectivos para la síntesis de alta fidelidad, este paradigma de VAE+difusión sufre de una eficiencia de entrenamiento limitada, inferencia lenta y una transferibilidad deficiente a tareas de visión más amplias. Estos problemas se derivan de una limitación clave de los espacios latentes de los VAEs: la falta de una separación semántica clara y una estructura discriminativa sólida. Nuestro análisis confirma que estas propiedades son cruciales no solo para tareas de percepción y comprensión, sino también para el entrenamiento estable y eficiente de modelos de difusión latente. Motivados por esta idea, presentamos SVG, un novedoso modelo de difusión latente sin autoencoders variacionales, que aprovecha representaciones auto-supervisadas para la generación visual. SVG construye un espacio de características con una discriminabilidad semántica clara al utilizar características congeladas de DINO, mientras que una rama residual ligera captura detalles finos para una reconstrucción de alta fidelidad. Los modelos de difusión se entrenan directamente en este espacio latente semánticamente estructurado para facilitar un aprendizaje más eficiente. Como resultado, SVG permite un entrenamiento de difusión acelerado, admite muestreo en pocos pasos y mejora la calidad generativa. Los resultados experimentales muestran además que SVG preserva las capacidades semánticas y discriminativas de las representaciones auto-supervisadas subyacentes, proporcionando una vía fundamentada hacia representaciones visuales de alta calidad y aplicables a diversas tareas.
El comentario lingüístico sobre los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), fuertemente influenciado por los marcos teóricos de Saussure y Chomsky, suele ser especulativo e improductivo. Los críticos cuestionan si los LLMs pueden modelar el lenguaje de manera legítima, citando la necesidad de una "estructura profunda" o de un "anclaje" para alcanzar una "competencia" lingüística idealizada. Argumentamos a favor de un cambio radical de perspectiva hacia los principios empiristas de Witold Mańczak, un destacado lingüista general e histórico. Él define el lenguaje no como un "sistema de signos" ni como un "sistema computacional del cerebro", sino como la totalidad de todo lo que se dice y se escribe. Sobre todo, identifica la frecuencia de uso de elementos lingüísticos particulares como el principio rector primario del lenguaje. Utilizando su marco teórico, desafiamos las críticas previas a los LLMs y ofrecemos una guía constructiva para diseñar, evaluar e interpretar los modelos de lenguaje.
El flare de lente degrada significativamente la calidad de la imagen, afectando tareas críticas de visión por computadora como la detección de objetos y la conducción autónoma. Los métodos recientes de Eliminación de Flare en Imagen Única (SIFR, por sus siglas en inglés) tienen un rendimiento deficiente cuando las fuentes de luz fuera del marco están incompletas o ausentes. Proponemos LightsOut, un marco de trabajo basado en difusión y especializado en la reconstrucción de fuentes de luz fuera del marco para mejorar el SIFR. Nuestro método aprovecha un módulo de regresión multitarea y un modelo de difusión ajustado mediante LoRA para garantizar resultados de reconstrucción realistas y físicamente consistentes. Experimentos exhaustivos demuestran que LightsOut mejora consistentemente el rendimiento de los métodos SIFR existentes en escenarios desafiantes sin necesidad de reentrenamiento adicional, sirviendo como una solución de preprocesamiento plug-and-play universalmente aplicable. Página del proyecto: https://ray-1026.github.io/lightsout/
Los modelos de lenguaje grande (LLM) se dividen en dos familias: los LLM centrados en el razonamiento, que fortalecen la cadena de pensamiento interna pero no pueden invocar herramientas externas, y los LLM agentes, que aprenden a interactuar con entornos y aprovechar herramientas, pero a menudo se rezagan en el razonamiento profundo. Esta división surge de objetivos de entrenamiento fundamentalmente diferentes, lo que conduce a fortalezas desajustadas e ineficiencia en consultas simples, donde ambas familias tienden a sobrepensar o a sobreutilizar herramientas. En este trabajo, presentamos el Modelo Base de Agente Adaptativo (A^2FM), un marco unificado que sigue un principio de ruteo y alineación: el modelo primero aprende el ruteo consciente de la tarea y luego alinea trayectorias específicas del modo bajo una columna vertebral compartida. Para abordar la brecha de ineficiencia, introducimos un tercer modo-instantáneo- que maneja consultas simples directamente, evitando razonamientos innecesarios o llamadas a herramientas, mientras complementa los modos agentes y de razonamiento. Para mejorar conjuntamente la precisión y la eficiencia, proponemos la Optimización de Política Adaptativa (APO), que aplica un muestreo adaptativo entre modos y utiliza una recompensa regularizada por costos. En la escala de 32B, A^2FM alcanza un 13.4% en BrowseComp, un 70.4% en AIME25 y un 16.7% en HLE, estableciendo nuevos estándares de referencia (SOTA) entre modelos comparables y desempeñándose de manera competitiva con los LLM de vanguardia en pruebas agentes, de razonamiento y generales. Notablemente, la ejecución adaptativa logra un costo de paso de solo $0.00487 por respuesta correcta, reduciendo el costo en un 45.2% en comparación con el modo de razonamiento y en un 33.5% en comparación con el modo agente, ofreciendo así una eficiencia de costos sustancialmente mayor mientras mantiene una precisión comparable.
Los sitios web de proyectos académicos pueden difundir la investigación de manera más efectiva cuando presentan claramente el contenido principal y permiten una navegación e interacción intuitivas. Sin embargo, los enfoques actuales, como la generación directa mediante modelos de lenguaje de gran escala (LLM), el uso de plantillas o la conversión directa a HTML, tienen dificultades para producir sitios con diseños conscientes e interactivos, y ha faltado una suite de evaluación integral para esta tarea. En este artículo, presentamos Paper2Web, un conjunto de datos de referencia y un marco de evaluación multidimensional para la generación de páginas web académicas. Este incorpora métricas basadas en reglas como Conectividad, Completitud y un sistema de verificación humana mediante LLM-as-a-Judge (que cubre interactividad, estética e informatividad), junto con PaperQuiz, que mide la retención de conocimiento a nivel de artículo. Además, presentamos PWAgent, una pipeline autónoma que convierte artículos científicos en páginas de inicio académicas interactivas y enriquecidas con multimedia. El agente refina iterativamente tanto el contenido como el diseño mediante herramientas MCP que mejoran el énfasis, el equilibrio y la calidad de la presentación. Nuestros experimentos muestran que PWAgent supera consistentemente a los enfoques de referencia de extremo a extremo, como las páginas web basadas en plantillas y las versiones de arXiv/alphaXiv, por un amplio margen, manteniendo un bajo costo y alcanzando el frente de Pareto en la generación de páginas web académicas.
Presentamos BLIP3o-NEXT, un modelo base completamente de código abierto de la serie BLIP3 que avanza hacia la nueva frontera de la generación nativa de imágenes. BLIP3o-NEXT unifica la generación de texto a imagen y la edición de imágenes en una única arquitectura, demostrando capacidades sólidas tanto en generación como en edición de imágenes. Al desarrollar este modelo de vanguardia en generación nativa de imágenes, identificamos cuatro ideas clave: (1) La mayoría de las decisiones arquitectónicas ofrecen un rendimiento comparable; una arquitectura puede considerarse efectiva siempre que escale eficientemente y permita inferencias rápidas; (2) La aplicación exitosa del aprendizaje por refuerzo puede impulsar aún más la frontera de la generación nativa de imágenes; (3) La edición de imágenes sigue siendo una tarea desafiante, aunque el seguimiento de instrucciones y la coherencia entre las imágenes generadas y las de referencia pueden mejorarse significativamente mediante post-entrenamiento y un motor de datos; (4) La calidad y escala de los datos continúan siendo factores decisivos que determinan el límite superior del rendimiento del modelo. Basándonos en estas ideas, BLIP3o-NEXT aprovecha una arquitectura Autoregresiva + Difusión en la que un modelo autoregresivo genera primero tokens discretos de imágenes condicionados por entradas multimodales, cuyos estados ocultos se utilizan como señales de condicionamiento para un modelo de difusión que genera imágenes de alta fidelidad. Esta arquitectura integra la capacidad de razonamiento y seguimiento de instrucciones de los modelos autoregresivos con la habilidad de renderizar detalles finos de los modelos de difusión, logrando un nuevo nivel de coherencia y realismo. Evaluaciones exhaustivas en diversos benchmarks de texto a imagen y edición de imágenes muestran que BLIP3o-NEXT supera el rendimiento de los modelos existentes.
Con el avance de potentes modelos de razonamiento a gran escala, evaluar de manera efectiva las capacidades de razonamiento de estos modelos se ha vuelto cada vez más importante. Sin embargo, los puntos de referencia existentes diseñados para evaluar las habilidades de razonamiento de modelos grandes tienden a ser limitados en alcance y carecen de la flexibilidad necesaria para adaptar su dificultad según las capacidades de razonamiento en evolución de los modelos. Para abordar esto, proponemos MorphoBench, un punto de referencia que incorpora preguntas multidisciplinarias para evaluar las capacidades de razonamiento de modelos grandes y puede ajustar y actualizar la dificultad de las preguntas basándose en las habilidades de razonamiento de modelos avanzados. Específicamente, hemos curado este punto de referencia seleccionando y recopilando preguntas complejas de razonamiento de puntos de referencia existentes y fuentes como competencias de nivel olímpico. Además, MorphoBench modifica de manera adaptativa el desafío analítico de las preguntas aprovechando declaraciones clave generadas durante el proceso de razonamiento del modelo. Asimismo, incluye preguntas generadas utilizando software de simulación, lo que permite el ajuste dinámico de la dificultad del punto de referencia con un consumo mínimo de recursos. Hemos recopilado más de 1,300 preguntas de prueba y ajustado iterativamente la dificultad de MorphoBench basándonos en las capacidades de razonamiento de modelos como o3 y GPT-5. MorphoBench mejora la exhaustividad y validez de la evaluación del razonamiento de los modelos, proporcionando una guía confiable para mejorar tanto las habilidades de razonamiento como la solidez científica de los modelos grandes. El código ha sido publicado en https://github.com/OpenDCAI/MorphoBench.
A pesar de los rápidos avances en la síntesis de texto a video, la calidad del video generado sigue dependiendo críticamente de indicaciones precisas por parte del usuario. Los métodos de optimización en tiempo de prueba, exitosos en otros dominios, enfrentan dificultades con la naturaleza multifacética del video. En este trabajo, presentamos VISTA (Video Iterative Self-improvemenT Agent), un novedoso sistema multiagente que mejora autónomamente la generación de videos mediante el refinamiento de indicaciones en un ciclo iterativo. VISTA primero descompone una idea del usuario en un plan temporal estructurado. Después de la generación, el mejor video se identifica mediante un robusto torneo por pares. Este video ganador es luego evaluado por un trío de agentes especializados que se enfocan en la fidelidad visual, auditiva y contextual. Finalmente, un agente de razonamiento sintetiza esta retroalimentación para reescribir y mejorar introspectivamente la indicación para el siguiente ciclo de generación. Los experimentos en escenarios de generación de video de una sola escena y múltiples escenas muestran que, mientras los métodos anteriores producen ganancias inconsistentes, VISTA mejora consistentemente la calidad del video y su alineación con la intención del usuario, logrando una tasa de victoria por pares de hasta el 60% frente a líneas base de última generación. Los evaluadores humanos coinciden, prefiriendo los resultados de VISTA en el 66.4% de las comparaciones.
Los modelos fundacionales (MF), como GPT-4 y AlphaFold, están transformando el panorama de la investigación científica. Más allá de acelerar tareas como la generación de hipótesis, el diseño experimental y la interpretación de resultados, plantean una pregunta más fundamental: ¿Los MF simplemente están mejorando las metodologías científicas existentes, o están redefiniendo la forma en que se realiza la ciencia? En este artículo, argumentamos que los MF están catalizando una transición hacia un nuevo paradigma científico. Introducimos un marco de tres etapas para describir esta evolución: (1) Integración Metacientífica, donde los MF mejoran los flujos de trabajo dentro de los paradigmas tradicionales; (2) Co-Creación Híbrida Humano-IA, donde los MF se convierten en colaboradores activos en la formulación de problemas, el razonamiento y el descubrimiento; y (3) Descubrimiento Científico Autónomo, donde los MF operan como agentes independientes capaces de generar nuevo conocimiento científico con una intervención humana mínima. A través de esta lente, revisamos las aplicaciones actuales y las capacidades emergentes de los MF en los paradigmas científicos existentes. Además, identificamos riesgos y direcciones futuras para el descubrimiento científico habilitado por MF. Este documento de posición tiene como objetivo apoyar a la comunidad científica en la comprensión del papel transformador de los MF y fomentar la reflexión sobre el futuro del descubrimiento científico. Nuestro proyecto está disponible en https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery.
Los modelos de lenguaje de razonamiento, como OpenAI-o1, DeepSeek-R1 y Qwen, logran un rendimiento sólido mediante cadenas de pensamiento extendidas, pero a menudo generan salidas innecesariamente largas. Maximizar la inteligencia por token—precisión en relación con la longitud de la respuesta—sigue siendo un problema abierto. Revisitamos el aprendizaje por refuerzo (RL) con la penalización de longitud más simple—truncamiento—y demostramos que la degradación en la precisión no surge de la falta de penalizaciones sofisticadas, sino de una optimización inadecuada del RL. Identificamos tres desafíos clave: (i) un gran sesgo en la estimación de ventajas, (ii) colapso de entropía y (iii) señal de recompensa dispersa. Los abordamos con "Doing Length pEnalty Right" (DLER), una receta de entrenamiento que combina normalización de recompensas por lotes, recorte superior, muestreo dinámico y una simple penalización de longitud por truncamiento. DLER logra un equilibrio estado del arte entre precisión y eficiencia, reduciendo la longitud de la salida en más del 70 por ciento mientras supera la precisión de todas las líneas base anteriores. También mejora la escalabilidad en tiempo de prueba: en comparación con DeepSeek-R1-7B, DLER-7B genera múltiples respuestas concisas en paralelo con un 28 por ciento más de precisión y menor latencia. Además, presentamos DLER con Conciencia de Dificultad, que ajusta adaptativamente el truncamiento en preguntas más fáciles para obtener ganancias adicionales de eficiencia. También proponemos un método de fusión selectiva de actualizaciones que preserva la precisión de la línea base mientras mantiene la capacidad de razonamiento conciso del modelo DLER, lo cual es útil para escenarios donde los datos de entrenamiento de RL son escasos.
La automatización del descubrimiento científico representa un hito crítico en la investigación de la Inteligencia Artificial (IA). Sin embargo, los sistemas agentes existentes para la ciencia adolecen de dos limitaciones fundamentales: flujos de trabajo rígidos y preprogramados que no pueden adaptarse a hallazgos intermedios, y una gestión inadecuada del contexto que dificulta la investigación a largo plazo. Presentamos freephdlabor, un marco de trabajo multiagente de código abierto que cuenta con flujos de trabajo completamente dinámicos determinados por el razonamiento en tiempo real de los agentes y una \textit{arquitectura modular} que permite una personalización sin fisuras: los usuarios pueden modificar, añadir o eliminar agentes para abordar requisitos específicos del dominio. El marco proporciona una infraestructura integral que incluye compactación automática del contexto, comunicación basada en espacios de trabajo para prevenir la degradación de la información, persistencia de la memoria entre sesiones y mecanismos de intervención humana no bloqueantes. Estas características transforman colectivamente la investigación automatizada de intentos aislados y de una sola ejecución en programas de investigación continuos que se construyen sistemáticamente sobre exploraciones previas e incorporan la retroalimentación humana. Al ofrecer tanto los principios arquitectónicos como la implementación práctica para construir sistemas co-científicos personalizables, este trabajo tiene como objetivo facilitar una adopción más amplia de la investigación automatizada en diversos dominios científicos, permitiendo a los profesionales desplegar sistemas multiagente interactivos que realicen investigaciones de extremo a extremo de manera autónoma, desde la ideación hasta la experimentación y la redacción de manuscritos listos para publicación.
Los agentes de investigación profunda en la web no solo recuperan información de diversas fuentes, como entornos web, archivos y entradas multimodales, sino que, más importante aún, necesitan analizar y agregar conocimiento de manera rigurosa para realizar investigaciones perspicaces. Sin embargo, los agentes de investigación profunda de código abierto existentes se centran principalmente en mejorar las capacidades de búsqueda de información de los agentes web para localizar datos específicos, pasando por alto la necesidad esencial de agregación de información, lo que limitaría su capacidad para apoyar investigaciones en profundidad. Proponemos un paradigma de "Explorar para Evolucionar" para construir de manera escalable datos de entrenamiento verificables para agentes web. Comenzando con una exploración proactiva en línea, un agente obtiene información fundamentada al explorar la web real. Utilizando la evidencia recopilada, el agente luego autoevoluciona un programa de agregación seleccionando, componiendo y refinando operaciones de 12 tipos lógicos de alto nivel para sintetizar un par de preguntas y respuestas (QA) verificable. Esta evolución desde una guía de alto nivel hasta operaciones concretas nos permitió producir de manera escalable WebAggregatorQA, un conjunto de datos de 10K muestras en 50K sitios web y 11 dominios. Basándonos en un marco de agente de código abierto, SmolAgents, recopilamos trayectorias de ajuste fino supervisado para desarrollar una serie de modelos fundamentales, WebAggregator. WebAggregator-8B iguala el rendimiento de GPT-4.1, mientras que la variante de 32B supera a GPT-4.1 en más de un 10% en GAIA-text y se acerca mucho a Claude-3.7-sonnet. Además, dada la disponibilidad limitada de puntos de referencia que evalúan las capacidades de agregación de información de los agentes web, construimos una división de evaluación anotada manualmente de WebAggregatorQA como un conjunto de pruebas desafiante. En este punto de referencia, Claude-3.7-sonnet solo alcanza un 28%, y GPT-4.1 obtiene un 25.8%. Incluso cuando los agentes logran recuperar todas las referencias, todavía tienen dificultades en WebAggregatorQA, lo que destaca la necesidad de fortalecer las capacidades de agregación de información de los fundamentos de los agentes web.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han mostrado avances significativos mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés), particularmente en dominios donde las recompensas pueden verificarse de manera programática, como en matemáticas y código. En estas áreas, los modelos se benefician de una base operativa bien definida guiada por objetivos explícitos basados en reglas. Sin embargo, este progreso revela una limitación importante: en dominios abiertos donde las recompensas son ambiguas, subjetivas o dependientes del contexto, como la escritura creativa, el razonamiento científico y, notablemente, la consulta médica, faltan funciones de recompensa robustas, lo que hace que estas áreas sean desafiantes para las estrategias actuales de RL. Para cerrar esta brecha, presentamos ORBIT, un marco de entrenamiento incremental basado en rúbricas diseñado específicamente para diálogos médicos de alto riesgo. ORBIT integra la generación de diálogos sintéticos con la creación dinámica de rúbricas, empleando estas rúbricas para dirigir un proceso incremental de RL. En particular, este enfoque no depende de conocimiento médico externo ni de reglas manuales, sino que utiliza retroalimentación guiada por rúbricas para moldear el aprendizaje. Cuando se implementa en el modelo Qwen3-4B-Instruct, nuestro método puede mejorar significativamente su rendimiento en el benchmark HealthBench-Hard, pasando de 7.0 a 27.2 utilizando solo 2k muestras, logrando así resultados de vanguardia para modelos de esta escala. Nuestro análisis confirma que el RL basado en rúbricas fomenta ganancias consistentes en el rendimiento en diversos escenarios de consulta, yendo más allá de simples mejoras numéricas. Estos hallazgos subrayan la retroalimentación basada en rúbricas como una estrategia escalable para avanzar en los LLMs en tareas complejas y abiertas.
La generación de diseños de escenas 3D artísticos y coherentes es crucial en la creación de contenido digital. Los métodos tradicionales basados en optimización suelen estar limitados por reglas manuales engorrosas, mientras que los modelos generativos profundos enfrentan desafíos para producir contenido con riqueza y diversidad. Además, los enfoques que utilizan modelos de lenguaje grandes a menudo carecen de robustez y no logran capturar con precisión relaciones espaciales complejas. Para abordar estos desafíos, este artículo presenta un novedoso sistema de generación de diseños 3D guiado por visión. Primero, construimos una biblioteca de activos de alta calidad que contiene 2,037 activos de escenas y 147 diseños de escenas 3D. Posteriormente, empleamos un modelo de generación de imágenes para expandir las representaciones de indicaciones en imágenes, ajustándolo para que se alinee con nuestra biblioteca de activos. Luego, desarrollamos un módulo robusto de análisis de imágenes para recuperar el diseño 3D de las escenas basado en semántica visual e información geométrica. Finalmente, optimizamos el diseño de la escena utilizando grafos de escenas y semántica visual general para garantizar coherencia lógica y alineación con las imágenes. Pruebas extensivas con usuarios demuestran que nuestro algoritmo supera significativamente a los métodos existentes en términos de riqueza y calidad del diseño. El código y el conjunto de datos estarán disponibles en https://github.com/HiHiAllen/Imaginarium.
Los modelos de lenguaje recientes (LLMs, por sus siglas en inglés) han demostrado una capacidad prometedora para resolver problemas relacionados con las finanzas. Sin embargo, la aplicación de LLMs en aplicaciones financieras del mundo real sigue siendo un desafío debido a su naturaleza de alto riesgo y altas consecuencias. Este artículo presenta FinTrust, un punto de referencia integral diseñado específicamente para evaluar la confiabilidad de los LLMs en aplicaciones financieras. Nuestro punto de referencia se centra en una amplia gama de problemas de alineación basados en contextos prácticos y presenta tareas detalladas para cada dimensión de la evaluación de confiabilidad. Evaluamos once LLMs en FinTrust y encontramos que modelos propietarios como o4-mini superan en la mayoría de las tareas, como la seguridad, mientras que modelos de código abierto como DeepSeek-V3 tienen ventajas en áreas específicas, como la equidad a nivel de la industria. Para tareas desafiantes como la alineación fiduciaria y la divulgación, todos los LLMs se quedan cortos, mostrando una brecha significativa en la conciencia legal. Creemos que FinTrust puede ser un punto de referencia valioso para la evaluación de la confiabilidad de los LLMs en el ámbito financiero.
A medida que crece la demanda de inteligencia emocional en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), un desafío clave radica en comprender los mecanismos internos que dan lugar a la expresión emocional y en controlar las emociones en el texto generado. Este estudio aborda tres preguntas fundamentales: (1) ¿Contienen los LLMs mecanismos independientes del contexto que moldean la expresión emocional? (2) ¿Qué forma adoptan estos mecanismos? (3) ¿Pueden ser aprovechados para un control emocional universal? Primero, construimos un conjunto de datos controlado, SEV (Escenario-Evento con Valencia), para elicitar estados internos comparables entre emociones. Posteriormente, extraemos direcciones emocionales independientes del contexto que revelan una codificación consistente y transversal de la emoción (P1). Identificamos neuronas y cabezas de atención que implementan localmente el cálculo emocional mediante descomposición analítica y análisis causal, y validamos sus roles causales a través de intervenciones de ablación y mejora. A continuación, cuantificamos la influencia causal de cada subcapa en la representación final de la emoción del modelo e integramos los componentes locales identificados en circuitos emocionales globales coherentes que impulsan la expresión emocional (P2). La modulación directa de estos circuitos logra una precisión del 99.65% en la expresión emocional en el conjunto de prueba, superando métodos basados en indicaciones y direccionamiento (P3). Hasta donde sabemos, este es el primer estudio sistemático en descubrir y validar circuitos emocionales en LLMs, ofreciendo nuevas perspectivas sobre la interpretabilidad y la inteligencia emocional controlable.
Las leyes de escalado empírico prescriben cómo asignar parámetros, datos y recursos computacionales, mientras que la parametrización de actualización máxima (muP) permite la transferencia de la tasa de aprendizaje a través de diferentes anchos al igualar las magnitudes de las actualizaciones en etapas tempranas. Sin embargo, en arquitecturas modernas invariantes a escala, el entrenamiento rápidamente entra en un estado estacionario gobernado por el optimizador, donde las capas de normalización crean sensibilidad a la escala en la retropropagación y la tasa de aprendizaje efectiva se vuelve dependiente del ancho, degradando la transferencia de muP. Abordamos esto introduciendo una regla de escalado de decaimiento de pesos para AdamW que preserva la ganancia de las subcapas a través de diferentes anchos. Empíricamente, el espectro de valores singulares de cada parámetro matricial escala en norma como eta/lambda con una forma aproximadamente invariante; bajo escalado de ancho d, observamos que el valor singular superior escala aproximadamente como eta/lambda * d^{0.75}. Combinando esta observación con la regla de tasa de aprendizaje de muP eta_2 ∝ d^{-1} para parámetros de tipo matricial, se implica una regla empírica de escalado de decaimiento de pesos lambda_2 ∝ d que aproximadamente mantiene las ganancias de las subcapas invariantes al ancho. Junto con parámetros de tipo vectorial entrenados a eta_1 = Theta_d(1) y lambda_1 = 0, esto permite la transferencia de cero disparos tanto de la tasa de aprendizaje como del decaimiento de pesos desde un ancho proxy a un ancho objetivo, eliminando la necesidad de barridos por ancho. Validamos la regla en Transformers de estilo LLaMA y en un entorno sintético mínimo, y proporcionamos un diagnóstico simple, la coincidencia de los valores singulares superiores, para verificar la invariancia de la ganancia de las subcapas. Nuestros resultados extienden muP más allá del régimen cercano a la inicialización al controlar explícitamente las escalas de estado estacionario establecidas por el optimizador, ofreciendo una receta práctica para la transferencia robusta de hiperparámetros en función del ancho bajo AdamW.
Los modelos de Mezcla de Expertos (MoE, por sus siglas en inglés) logran una escalabilidad eficiente mediante la activación dispersa de expertos, pero a menudo sufren decisiones de enrutamiento subóptimas debido a cambios en la distribución durante la implementación. Si bien los métodos existentes de adaptación en tiempo de prueba podrían abordar potencialmente estos problemas, se centran principalmente en modelos densos y requieren acceso a datos externos, lo que limita su aplicabilidad práctica en arquitecturas MoE. Sin embargo, descubrimos que, en lugar de depender de datos de referencia, podemos optimizar la selección de expertos MoE sobre la marcha basándonos únicamente en el contexto de entrada. Por ello, proponemos un marco en tiempo de prueba en línea y sin datos que adapta continuamente las decisiones de enrutamiento MoE durante la generación de texto sin supervisión externa ni datos adicionales. Nuestro método alterna entre dos fases: durante la etapa de precarga y, posteriormente, en intervalos regulares, optimizamos las decisiones de enrutamiento del modelo utilizando autosupervisión basada en la secuencia ya generada. Luego, generamos texto de manera normal, manteniendo el enrutador modificado hasta la siguiente adaptación. Implementamos esto mediante vectores aditivos ligeros que solo actualizan los logits del enrutador en capas seleccionadas, manteniendo la eficiencia computacional mientras se previene la sobreadaptación. Los resultados experimentales muestran mejoras consistentes en tareas de razonamiento desafiantes, manteniendo la robustez frente a cambios de contexto. Por ejemplo, nuestro método logra una mejora del 5.5\% en HumanEval con OLMoE. Además, gracias a su propiedad de plug-and-play, nuestro método complementa naturalmente las técnicas existentes de escalado en tiempo de prueba, por ejemplo, logrando mejoras promedio del 6\% cuando se combina con autocoherencia en DeepSeek-V2-Lite.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) experimentan una degradación significativa en su rendimiento en conversaciones de múltiples turnos cuando la información se presenta de manera incremental. Dado que las conversaciones de múltiples turnos caracterizan las interacciones cotidianas con los LLMs, esta degradación representa un desafío grave para su usabilidad en el mundo real. Planteamos la hipótesis de que los aumentos abruptos en la incertidumbre del modelo señalan desalineaciones en las interacciones de múltiples turnos con los LLMs, y aprovechamos esta idea para realinear dinámicamente el contexto conversacional. Introducimos ERGO (Reinicio Guiado por Entropía para la Optimización de la Generación), que cuantifica continuamente la incertidumbre interna mediante la entropía de Shannon sobre las distribuciones del siguiente token y activa la consolidación adaptativa de indicaciones cuando se detecta un pico agudo en la entropía. Al tratar la incertidumbre como una señal de primer orden en lugar de una molestia que eliminar, ERGO abraza la variabilidad en el lenguaje y el modelado, representando y respondiendo a la incertidumbre. En tareas de múltiples turnos con instrucciones reveladas incrementalmente, ERGO produce una mejora promedio del 56.6% en el rendimiento sobre los baselines estándar, aumenta la aptitud (capacidad de rendimiento máximo) en un 24.7% y reduce la falta de fiabilidad (variabilidad en el rendimiento) en un 35.3%, demostrando que las intervenciones conscientes de la incertidumbre pueden mejorar tanto la precisión como la fiabilidad en la inteligencia artificial conversacional.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) se preentrenan continuamente con una mezcla de datos de subtítulos de imágenes-texto y documentos intercalados, mientras que el filtrado de datos de alta calidad hacia documentos intercalados de imágenes-texto está poco explorado. Proponemos entrenar un MLLM eficiente como Clasificador Unificado de Calidad de Datos Multimodales para filtrar tanto subtítulos de imágenes-texto como datos intercalados de alta calidad (UniFilter). Para abordar el desafío de recopilar datos multimodales etiquetados diversos, introducimos un enfoque semi-sintético que aprovecha imágenes en bruto fácilmente disponibles y genera texto correspondiente en cuatro niveles de calidad. Este método permite la creación eficiente de pares muestra-puntuación tanto para datos de subtítulos como para documentos intercalados, con el fin de entrenar UniFilter. Aplicamos UniFilter para seleccionar datos de subtítulos de alta calidad del conjunto de datos DataComp y datos intercalados del conjunto de datos OBELICS de imágenes-texto intercaladas. Los MLLMs preentrenados con los datos filtrados demuestran capacidades significativamente mejoradas en comparación con aquellos entrenados con datos filtrados de referencia, logrando un razonamiento de cero-shot y capacidades de aprendizaje en contexto más sólidas. Después de un ajuste fino supervisado visual, estos MLLMs inducidos por UniFilter alcanzan un rendimiento superior en varios puntos de referencia, destacando los beneficios posteriores de un preentrenamiento multimodal de alta calidad. Publicamos los datos sintéticos de entrenamiento utilizados para entrenar UniFilter, los puntos de control del modelo UniFilter y el subconjunto de documentos intercalados de alta calidad OBELICS-HQ, seleccionado por UniFilter, para la comunidad con el fin de su reproducción y desarrollo adicional.
Presentamos Representation Tokenizer (RepTok), un marco de modelado generativo que representa una imagen utilizando un único token latente continuo obtenido a partir de transformadores de visión auto-supervisados. Basándonos en un codificador SSL preentrenado, ajustamos únicamente la incrustación semántica del token y lo emparejamos con un decodificador generativo entrenado conjuntamente utilizando un objetivo estándar de emparejamiento de flujo. Esta adaptación enriquece el token con detalles de bajo nivel relevantes para la reconstrucción, permitiendo una reconstrucción fiel de la imagen. Para preservar la geometría favorable del espacio SSL original, añadimos una pérdida de similitud coseno que regulariza el token adaptado, asegurando que el espacio latente permanezca suave y adecuado para la generación. Nuestra formulación de un solo token resuelve las redundancias espaciales de los espacios latentes 2D y reduce significativamente los costos de entrenamiento. A pesar de su simplicidad y eficiencia, RepTok logra resultados competitivos en la generación condicionada por clases en ImageNet y se extiende naturalmente a la síntesis de texto a imagen, alcanzando un rendimiento competitivo en cero-shot en MS-COCO bajo presupuestos de entrenamiento extremadamente limitados. Nuestros hallazgos destacan el potencial de las representaciones SSL ajustadas como espacios latentes compactos y efectivos para el modelado generativo eficiente.
Presentamos DriveGen3D, un marco novedoso para la generación de escenas dinámicas 3D de conducción de alta calidad y altamente controlables que aborda limitaciones críticas en las metodologías existentes. Los enfoques actuales para la síntesis de escenas de conducción ya sea sufren de demandas computacionales prohibitivas para la generación temporal extendida, se centran exclusivamente en la síntesis de videos prolongados sin representación 3D, o se limitan a la reconstrucción estática de escenas únicas. Nuestro trabajo cierra esta brecha metodológica al integrar la generación acelerada de videos a largo plazo con la reconstrucción de escenas dinámicas a gran escala mediante control condicional multimodal. DriveGen3D introduce una pipeline unificada que consta de dos componentes especializados: FastDrive-DiT, un transformador de difusión de video eficiente para la síntesis de videos de alta resolución y temporalmente coherentes bajo guía de texto y diseño de vista de pájaro (BEV); y FastRecon3D, un módulo de reconstrucción de avance rápido que construye rápidamente representaciones 3D Gaussianas a lo largo del tiempo, garantizando consistencia espacio-temporal. Juntos, estos componentes permiten la generación en tiempo real de videos de conducción extendidos (hasta 424x800 a 12 FPS) y las correspondientes escenas dinámicas 3D, logrando un SSIM de 0.811 y un PSNR de 22.84 en la síntesis de vistas novedosas, todo mientras se mantiene la eficiencia de parámetros.