Artigos de pesquisa em IA selecionados diariamente com traduções
O que acontece quando um contador de histórias esquece a sua própria narrativa? Os Grandes Modelos de Linguagem (LLMs) são agora capazes de gerar narrativas com dezenas de milhares de palavras, mas frequentemente falham em manter a consistência ao longo do texto. Ao gerar narrativas longas, estes modelos podem contradizer factos previamente estabelecidos, características das personagens e regras do mundo ficcional. Os *benchmarks* existentes para geração de histórias focam-se principalmente na qualidade do enredo e na fluidez, deixando os erros de consistência largamente por explorar. Para colmatar esta lacuna, apresentamos o ConStory-Bench, um *benchmark* concebido para avaliar a consistência narrativa na geração de histórias longas. Este contém 2.000 *prompts* abrangendo quatro cenários de tarefas e define uma taxonomia de cinco categorias de erro com 19 subtipos detalhados. Desenvolvemos também o ConStory-Checker, um *pipeline* automatizado que deteta contradições e fundamenta cada julgamento em evidências textuais explícitas. Avaliando uma variedade de LLMs através de cinco questões de investigação, descobrimos que os erros de consistência apresentam tendências claras: são mais comuns nas dimensões factual e temporal, tendem a aparecer a meio das narrativas, ocorrem em segmentos de texto com maior entropia a nível de *tokens*, e certos tipos de erro tendem a co-ocorrer. Estas descobertas podem orientar futuros esforços para melhorar a consistência na geração de narrativas longas. A nossa página do projeto está disponível em https://picrew.github.io/constory-bench.github.io/.
A busca por inteligência espacial depende fundamentalmente do acesso a dados 3D em larga escala e de alta granularidade. No entanto, as abordagens existentes constroem predominantemente benchmarks de compreensão espacial gerando pares de pergunta-resposta (QA) a partir de um número limitado de conjuntos de dados anotados manualmente, em vez de anotar sistematicamente novas cenas 3D em larga escala a partir de dados brutos da web. Como resultado, sua escalabilidade é severamente limitada, e o desempenho do modelo é ainda mais prejudicado por lacunas de domínio inerentes a esses conjuntos de dados restritos. Neste trabalho, propomos o Holi-Spatial, o primeiro conjunto de dados multimodal, em larga escala e com consciência espacial, totalmente automatizado, construído a partir de vídeos brutos sem intervenção humana, utilizando o pipeline de curadoria de dados proposto. O Holi-Spatial suporta supervisão espacial multi-nível, variando desde reconstruções geometricamente precisas por 3D Gaussian Splatting (3DGS) com mapas de profundidade renderizados até anotações semânticas a nível de objeto e relacional, juntamente com os correspondentes pares de Pergunta-Resposta (QA) espaciais. Seguindo um pipeline sistemático e fundamentado, construímos ainda o Holi-Spatial-4M, o primeiro conjunto de dados semântico 3D de grande escala e alta qualidade, contendo 12 mil cenas 3DGS otimizadas, 1,3 milhão de máscaras 2D, 320 mil caixas delimitadoras 3D, 320 mil legendas de instâncias, 1,2 milhão de instâncias de ancoragem 3D e 1,2 milhão de pares de QA espaciais abrangendo diversas tarefas de raciocínio geométrico, relacional e semântico. O Holi-Spatial demonstra um desempenho excepcional na qualidade da curadoria de dados, superando significativamente os métodos *feed-forward* e otimizados por cena existentes em conjuntos de dados como ScanNet, ScanNet++ e DL3DV. Além disso, o ajuste fino de Modelos de Visão e Linguagem (VLMs) para tarefas de raciocínio espacial usando este conjunto de dados também resultou em melhorias substanciais no desempenho do modelo.
Os modelos de fundação geométrica *feedforward* alcançam uma forte reconstrução em janelas curtas, mas a sua escalabilidade para vídeos com minutos de duração é limitada pela complexidade quadrática da atenção ou pela memória efetiva limitada em desenhos recorrentes. Apresentamos o LoGeR (*Long-context Geometric Reconstruction*), uma arquitetura inovadora que escala a reconstrução 3D densa para sequências extremamente longas sem otimização posterior. O LoGeR processa fluxos de vídeo em blocos, aproveitando fortes *priors* bidirecionais para um raciocínio intra-bloco de alta fidelidade. Para gerir o desafio crítico da coerência entre os limites dos blocos, propomos um módulo de memória híbrida baseado em aprendizagem. Este sistema de dois componentes combina uma memória paramétrica de Treino no Momento do Teste (*Test-Time Training - TTT*) para ancorar o sistema de coordenadas global e prevenir a deriva de escala, juntamente com um mecanismo não paramétrico de Atenção por Janela Deslizante (*Sliding Window Attention - SWA*) para preservar o contexto não comprimido para um alinhamento adjacente de alta precisão. Notavelmente, esta arquitetura de memória permite que o LoGeR seja treinado em sequências de 128 quadros e generalize para milhares de quadros durante a inferência. Avaliado em *benchmarks* padrão e num novo conjunto de dados VBR reutilizado com sequências de até 19 mil quadros, o LoGeR supera substancialmente os melhores métodos *feedforward* anteriores – reduzindo o ATE no KITTI em mais de 74% – e alcança uma reconstrução robusta e globalmente consistente em horizontes sem precedentes.
A aprendizagem por reforço não supervisionada com recompensas verificáveis (URLVR) oferece um caminho para escalar o treinamento de LLMs além do gargalo da supervisão, derivando recompensas sem rótulos de verdade fundamental. Trabalhos recentes aproveitam sinais intrínsecos do modelo, mostrando ganhos iniciais promissores, embora seu potencial e limitações permaneçam pouco claros. Neste trabalho, revisitamos a URLVR e fornecemos uma análise abrangente abrangendo taxonomia, teoria e experimentos extensivos. Primeiro, classificamos os métodos URLVR em intrínsecos versus externos com base nas fontes de recompensa, depois estabelecemos uma estrutura teórica unificada revelando que todos os métodos intrínsecos convergem para o aguçamento da distribuição inicial do modelo. Este mecanismo de aguçamento tem sucesso quando a confiança inicial está alinhada com a correção, mas falha catastróficamente quando há desalinhamento. Através de experimentos sistemáticos, mostramos que as recompensas intrínsecas seguem consistentemente um padrão de ascensão e queda entre os métodos, com o momento do colapso determinado pelo *prior* do modelo em vez de escolhas de engenharia. Apesar desses limites de escalabilidade, descobrimos que as recompensas intrínsecas permanecem valiosas no treinamento no momento do teste em pequenos conjuntos de dados, e propomos o Model Collapse Step para medir o *prior* do modelo, servindo como um indicador prático para a capacidade de treinamento por RL. Finalmente, exploramos métodos de recompensa externa que fundamentam a verificação em assimetrias computacionais, mostrando evidências preliminares de que eles podem escapar do teto confiança-correção. Nossas descobertas delimitam fronteiras para a URLVR intrínseca enquanto motivam caminhos para alternativas escaláveis.
Os Grandes Modelos de Raciocínio demonstraram desempenho notável com o avanço das técnicas de escalonamento no momento do teste, que melhoram a precisão da previsão ao gerar múltiplas respostas candidatas e selecionar a resposta mais confiável. Embora trabalhos anteriores tenham analisado que sinais internos do modelo, como escores de confiança, podem indicar parcialmente a correção da resposta e exibir uma correlação distribucional com a precisão, tal informação distribucional não foi totalmente utilizada para orientar a seleção de respostas. Motivados por isso, propomos o DistriVoting, que incorpora prioridades distribucionais como outro sinal juntamente com a confiança durante a votação. Especificamente, nosso método (1) primeiro decompõe a distribuição mista de confiança em componentes positivos e negativos usando Modelos de Mistura Gaussianos, (2) depois aplica um filtro de rejeição baseado em amostras positivas/negativas deles para mitigar a sobreposição entre as duas distribuições. Além disso, para aliviar ainda mais a sobreposição sob a perspectiva da própria distribuição, propomos o SelfStepConf, que usa a confiança a nível de etapa para ajustar dinamicamente o processo de inferência, aumentando a separação entre as duas distribuições para melhorar a confiabilidade das confianças na votação. Experimentos em 16 modelos e 5 benchmarks demonstram que nosso método supera significativamente as abordagens state-of-the-art.
Os avanços recentes em Modelos Multimodais Unificados (UMMs) têm impulsionado significativamente a geração de texto para imagem (T2I), particularmente através da integração do raciocínio em Cadeia de Pensamento (CoT). No entanto, os métodos existentes de T2I baseados em CoT dependem amplamente de planeamento em linguagem natural abstrata, que carece da precisão necessária para layouts espaciais complexos, elementos visuais estruturados e conteúdo textual denso. Neste trabalho, propomos o CoCo (Código-como-CoT), uma estrutura de raciocínio orientada a código que representa o processo de raciocínio como código executável, permitindo um planeamento intermédio explícito e verificável para a geração de imagens. Dado um *prompt* de texto, o CoCo gera primeiro código executável que especifica o layout estrutural da cena, o qual é depois executado num ambiente isolado (*sandboxed*) para renderizar um rascunho de imagem determinístico. O modelo refina subsequentemente este rascunho através de edição de imagem de granularidade fina para produzir o resultado final de alta fidelidade. Para suportar este paradigma de treino, construímos o CoCo-10K, um conjunto de dados curado contendo pares de imagem rascunho-final estruturados, concebido para ensinar tanto a construção estruturada do rascunho como o refinamento visual corretivo. Avaliações empíricas no StructT2IBench, OneIG-Bench e LongText-Bench mostram que o CoCo alcança melhorias de +68,83%, +54,8% e +41,23% face à geração direta, superando também outros métodos de geração potenciados por CoT. Estes resultados demonstram que o código executável é um paradigma de raciocínio eficaz e fiável para a geração de texto para imagem precisa, controlável e estruturada. O código está disponível em: https://github.com/micky-li-hd/CoCo
Os editores de difusão unificados frequentemente dependem de uma estrutura fixa e compartilhada para tarefas diversas, sofrendo com interferência entre tarefas e má adaptação a demandas heterogêneas (por exemplo, local vs. global, semântica vs. fotométrica). Em particular, as variantes predominantes de ControlNet e OmniControl combinam múltiplos sinais de condicionamento (por exemplo, texto, máscara, referência) através de concatenação estática ou adaptadores aditivos que não podem priorizar ou suprimir dinamicamente modalidades conflitantes, resultando assim em artefatos como sangramento de cor através de fronteiras de máscara, deriva de identidade ou estilo, e comportamento imprevisível sob entradas de múltiplas condições. Para resolver isso, propomos o Roteamento Consciente da Condição de Especialistas (CARE-Edit), que alinha a computação do modelo com competências de edição específicas. Em seu núcleo, um roteador de atenção latente leve atribui tokens de difusão codificados a quatro especialistas especializados – Texto, Máscara, Referência e Base – com base em condições multimodais e etapas de tempo de difusão: (i) um módulo de Repintura por Máscara primeiro refina máscaras grosseiras definidas pelo usuário para orientação espacial precisa; (ii) o roteador aplica seleção esparsa top-K para alocar dinamicamente a computação para os especialistas mais relevantes; (iii) um módulo de Mistura Latente subsequentemente funde as saídas dos especialistas, integrando coerentemente informações semânticas, espaciais e estilísticas às imagens base. Experimentos validam o forte desempenho do CARE-Edit em tarefas de edição contextual, incluindo remoção, substituição, edições guiadas por texto e transferência de estilo. A análise empírica revela ainda o comportamento específico por tarefa dos especialistas especializados, mostrando a importância do processamento dinâmico e consciente da condição para mitigar conflitos de múltiplas condições.
A difusão autoregressiva (AR) oferece uma estrutura promissora para a geração de vídeos de comprimento teoricamente infinito. No entanto, um grande desafio é manter a continuidade temporal, evitando ao mesmo tempo a degradação progressiva da qualidade causada pelo acúmulo de erros. Para garantir a continuidade, os métodos existentes normalmente condicionam a geração em contextos altamente removidos do ruído; contudo, esta prática propaga erros de predição com alta certeza, agravando assim a degradação. Neste artigo, argumentamos que um contexto altamente limpo é desnecessário. Inspirados pelos modelos de difusão bidirecionais, que removem ruído de quadros em um nível de ruído compartilhado mantendo a coerência, propomos que condicionar a geração no contexto no mesmo nível de ruído do bloco atual fornece sinal suficiente para a consistência temporal, mitigando efetivamente a propagação de erros. Com base nessa ideia, propomos o HiAR, uma estrutura hierárquica de remoção de ruído que inverte a ordem convencional de geração: em vez de completar cada bloco sequencialmente, ele realiza uma geração causal em todos os blocos a cada etapa de remoção de ruído, de modo que cada bloco é sempre condicionado no contexto no mesmo nível de ruído. Esta hierarquia admite naturalmente inferência paralela em pipeline, resultando em uma aceleração de 1,8x no tempo real na nossa configuração de 4 passos. Observamos ainda que a auto-distilação por rollout sob este paradigma amplifica um atalho de baixo movimento inerente ao objetivo inverso de KL, que busca modos. Para neutralizar isso, introduzimos um regularizador de KL direto no modo de atenção bidirecional, que preserva a diversidade de movimento para inferência causal sem interferir com a perda de distilação. No VBench (geração de 20s), o HiAR alcança a melhor pontuação geral e o menor desvio temporal entre todos os métodos comparados.
À medida que os modelos de linguagem (MLs) evoluem de assistentes de conversação para agentes de longo prazo capazes de raciocínio multi-etapas e uso de ferramentas, os benchmarks existentes permanecem amplamente confinados a tarefas estruturadas ou no estilo de exames que ficam aquém das demandas profissionais do mundo real. Para tanto, introduzimos o \OneMillion-Bench, um benchmark de 400 tarefas curadas por especialistas abrangendo Direito, Finanças, Indústria, Saúde e Ciências Naturais, construído para avaliar agentes em cenários economicamente consequentes. Diferente de trabalhos anteriores, o benchmark exige a recuperação de fontes autorizadas, a resolução de evidências conflitantes, a aplicação de regras específicas do domínio e a tomada de decisões com restrições, onde a correção depende tanto do processo de raciocínio quanto da resposta final. Adotamos um protocolo de avaliação baseado em rubricas que pontua a precisão factual, a coerência lógica, a viabilidade prática e a conformidade profissional, focado em problemas de nível especialista para garantir uma diferenciação significativa entre os agentes. Em conjunto, o \OneMillion-Bench fornece um ambiente de teste unificado para avaliar a confiabilidade agentiva, a profundidade profissional e a prontidão prática em cenários de domínio intensivo.
Embora os sistemas de ASR baseados em LLM autoregressivos (AR) atinjam alta precisão, sua decodificação sequencial limita o paralelismo e incorre em alta latência. Propomos o NLE, uma abordagem não autoregressiva (NAR) que formula o reconhecimento de fala como uma edição condicional de transcrição, permitindo uma predição totalmente paralela. O NLE extrai *embeddings* acústicos e uma hipótese inicial de um codificador de fala pré-treinado e, em seguida, refina a hipótese usando um editor LLM bidirecional treinado com um objetivo de alinhamento latente. Uma estratégia de preenchimento intercalado explora o viés de mapeamento de identidade dos Transformers, permitindo que o modelo se concentre em correções em vez de reconstrução completa. No *leaderboard* Open ASR, o NLE++ alcança 5,67% de WER médio com um RTFx (fator de tempo real inverso) de 1630. Em cenários de enunciado único, o NLE alcança uma aceleração de 27x em relação à linha de base AR, tornando-o adequado para aplicações em tempo real.
Apresentamos o AutoResearch-RL, um framework no qual um agente de aprendizagem por reforço conduz pesquisas abertas de arquitetura neural e hiperparâmetros sem supervisão humana, executando-se perpetuamente até que um oráculo de terminação sinalize convergência ou esgotamento de recursos. A cada passo, o agente propõe uma modificação de código a um script de treinamento alvo, executa-o sob um orçamento fixo de tempo de parede, observa uma recompensa escalar derivada da métrica de bits-por-byte de validação (val-bpb) e atualiza sua política via Otimização de Políticas Proximais (PPO). O insight fundamental do design é a separação de três aspectos: (i) um ambiente congelado (pipeline de dados, protocolo de avaliação e constantes) que garante uma comparação justa entre experimentos; (ii) um arquivo alvo mutável (train.py) que representa o estado editável do agente; e (iii) um meta-aprendiz (o próprio agente de RL) que acumula uma trajetória crescente de resultados experimentais e os utiliza para fundamentar propostas subsequentes. Formalizamos isso como um Processo de Decisão Markoviana, derivamos garantias de convergência sob suposições brandas e demonstramos empiricamente, em um benchmark de pré-treinamento nanochat com uma única GPU, que o AutoResearch-RL descobre configurações que igualam ou superam baselines ajustadas manualmente após aproximadamente 300 iterações noturnas, sem qualquer intervenção humana no ciclo.
Sistemas agentes que operam sobre grandes ecossistemas de ferramentas devem planejar e executar fluxos de trabalho de longo prazo sob supervisão fraca ou não verificável. Embora modelos de fronteira mitiguem esses desafios por meio de escala e grandes orçamentos de contexto, os modelos de linguagem pequenos (SLMs) permanecem frágeis: o carregamento ansioso de ferramentas satura o contexto, os erros de execução se acumulam ao longo do tempo e as recompensas esparsas limitam o aprendizado. Apresentamos o ATLAS, uma estrutura de ajuste fino por reforço que permite aos SLMs operar eficazmente em ambientes de grande espaço de ferramentas, aprendendo como adquirir contexto e como executar ações. Nossa abordagem traz duas contribuições principais. Primeiro, tratamos o controle de contexto e a estrutura de execução como decisões aprendíveis, combinando o carregamento iterativo de ferramentas com a orquestração programática de ferramentas para limitar o crescimento do contexto e estabilizar trajetórias de longo prazo. Segundo, propomos o ajuste fino por reforço baseado em rubricas, que decompõe o sucesso da tarefa em critérios estruturados e alinhados com a tarefa, permitindo um treinamento escalável usando pequenos modelos avaliadores. Nos benchmarks MCP, essas escolhas de projeto resultam em ganhos grandes e consistentes em relação a linhas de base genéricas de RL, permitindo que um SLM de 4B se aproxime do desempenho de agentes de fronteira com orçamentos de parâmetros e contexto muito mais restritos.
Os modelos de difusão degradam imagens através da adição de ruído, e a reversão deste processo revela uma hierarquia de informação ao longo dos intervalos de tempo. A teoria do espaço de escala exibe uma hierarquia semelhante através da filtragem passa-baixo. Nós formalizamos esta conexão e demonstramos que os estados altamente ruidosos da difusão não contêm mais informação do que imagens pequenas e redimensionadas - levantando a questão de por que eles precisam ser processados em resolução total. Para abordar isto, integramos espaços de escala no processo de difusão, formulando uma família de modelos de difusão com degradações lineares generalizadas e implementações práticas. A utilização do redimensionamento como degradação resulta na nossa proposta de Difusão no Espaço de Escala. Para suportar a Difusão no Espaço de Escala, introduzimos a Flexi-UNet, uma variante da UNet que realiza a remoção de ruído preservando e aumentando a resolução, utilizando apenas as partes necessárias da rede. Avaliamos o nosso framework no CelebA e no ImageNet e analisamos o seu comportamento de escalonamento através de várias resoluções e profundidades de rede. O nosso site do projeto ( https://prateksha.github.io/projects/scale-space-diffusion/ ) está disponível publicamente.
Os agentes atuais de Interface Gráfica do Utilizador (GUI) operam principalmente sob um paradigma reativo: um utilizador deve fornecer uma instrução explícita para o agente executar uma tarefa. No entanto, um assistente de IA inteligente deve ser proativo, sendo capaz de antecipar as intenções do utilizador diretamente a partir de entradas visuais contínuas, como capturas de ecrã de telemóveis ou computadores, e oferecer recomendações oportunas sem solicitação explícita do utilizador. A transição para este paradigma proativo apresenta desafios significativos. A atividade do ecrã no mundo real raramente é linear; consiste em trajetórias de longo prazo repletas de navegação ruidosa, ações sem significado e troca de tarefas multithread. Para colmatar esta lacuna, apresentamos o PIRA-Bench (Benchmark de Agente de Recomendação de Intenção Proativa), um novo benchmark para avaliar modelos de linguagem grandes multimodais (MLLMs) em entradas visuais contínuas e fracamente supervisionadas. Ao contrário de conjuntos de dados reativos, o PIRA-Bench apresenta trajetórias complexas com múltiplas intenções intercaladas e segmentos ruidosos com vários contextos de perfil do utilizador, desafiando os agentes a detetar eventos acionáveis enquanto se adaptam às preferências do utilizador. Além disso, propomos a linha de base PIRF, uma estrutura de rastreamento de estado com consciência da memória que capacita MLLMs gerais para gerir múltiplos threads de tarefas e lidar com entradas visuais enganosas. O PIRA-Bench serve como um passo inicial rumo a assistentes pessoais robustos e proativos baseados em GUI.
Os modelos atuais de geração de vídeo sofrem com alta latência computacional, tornando aplicações em tempo real proibitivamente caras. Neste artigo, abordamos essa limitação explorando a redundância temporal inerente aos patches latentes de vídeo. Para tanto, propomos o framework Latent Inter-frame Pruning with Attention Recovery (LIPAR), que detecta e evita a recomputação de patches latentes duplicados. Adicionalmente, introduzimos um novo mecanismo de Recuperação de Atenção que aproxima os valores de atenção dos tokens podados, eliminando assim artefatos visuais decorrentes da aplicação ingênua do método de poda. Empiricamente, nosso método aumenta a taxa de processamento de edição de vídeo em 1,45 vezes, atingindo em média 12,2 FPS em uma NVIDIA A6000 comparado aos 8,4 FPS da linha de base. O método proposto não compromete a qualidade de geração e pode ser integrado perfeitamente ao modelo sem treinamento adicional. Nossa abordagem efetivamente preenche a lacuna entre algoritmos de compressão tradicionais e pipelines generativos modernos.
O treinamento de grandes modelos de linguagem (LLMs) como agentes autónomos geralmente começa com aprendizagem por imitação, mas este método apenas ensina os agentes *o que fazer* sem compreender *porquê*: os agentes nunca contrastam ações bem-sucedidas com alternativas subótimas e, portanto, carecem de consciência sobre a qualidade da ação. Abordagens recentes tentam resolver isto introduzindo supervisão por autorreflexão derivada de contrastes entre ações especialistas e alternativas. No entanto, o paradigma de treinamento permanece fundamentalmente como aprendizagem por imitação: o modelo imita texto de reflexão pré-construído em vez de aprender a raciocinar autonomamente. Propomos o *Agentic Critical Training* (ACT), um paradigma de aprendizagem por reforço que treina agentes para identificar a melhor ação entre alternativas. Ao recompensar se o julgamento do modelo está correto, o ACT leva o modelo a desenvolver autonomamente o raciocínio sobre a qualidade da ação, produzindo autorreflexão genuína em vez de a imitar. Em três benchmarks desafiadores para agentes, o ACT melhora consistentemente o desempenho do agente quando combinado com diferentes métodos de pós-treinamento. Obtém uma melhoria média de 5.07 pontos sobre a aprendizagem por imitação e 4.62 pontos sobre a aprendizagem por reforço. Comparado com abordagens que injetam capacidade de reflexão através de destilação de conhecimento, o ACT também demonstra vantagens claras, produzindo uma melhoria média de 2.42 pontos. Além disso, o ACT permite uma forte generalização fora da distribuição em benchmarks de agentes e melhora o desempenho em benchmarks de raciocínio geral sem qualquer dado de treino específico para raciocínio, destacando o valor do nosso método. Estes resultados sugerem que o ACT é um caminho promissor para desenvolver agentes de LLM mais reflexivos e capazes.
Os Modelos de Linguagem de Grande Porte (LLMs) demonstraram fortes capacidades gerais, mas sua implantação no setor financeiro continua desafiadora devido à terminologia densa e específica do domínio, requisitos rigorosos de raciocínio numérico e baixa tolerância a erros factuais. Realizamos um estudo empírico controlado que mostra que, em domínios verticais especializados, o desempenho é largamente determinado pela qualidade e pelo perfil de dificuldade/verificabilidade dos dados de pós-treinamento. Introduzimos o ODA-Fin-SFT-318k, construído por meio de destilação e verificação em múltiplos estágios para produzir supervisão de alta qualidade em Cadeia de Pensamento (CoT), e o ODA-Fin-RL-12k, curado para tarefas difíceis mas verificáveis que equilibram precisão de recompensa e diversidade de tarefas. Utilizando pipelines padrão de SFT e RL, mostramos que a destilação de CoT de alta qualidade estabelece uma base robusta durante o SFT, enquanto a amostragem consciente da dificuldade e da verificabilidade melhora a generalização do RL. Avaliado em nove benchmarks abrangendo tarefas financeiras gerais, análise de sentimento e raciocínio numérico, nosso modelo ODA-Fin-RL-8B supera consistentemente os LLMs financeiros open-source state-of-the-art (SOTA) de tamanho comparável. Disponibilizamos nossos conjuntos de dados ODA-Fin-SFT-318k e ODA-Fin-RL-12k, juntamente com os modelos treinados, para avançar a pesquisa em IA financeira centrada em dados.
Embora os modelos generativos de poucos passos tenham possibilitado uma poderosa geração de imagens e vídeos a um custo significativamente menor, os paradigmas genéricos de aprendizagem por reforço (RL) para modelos de poucos passos permanecem um problema não resolvido. As abordagens de RL existentes para modelos de difusão de poucos passos dependem fortemente da retropropagação através de modelos de recompensa diferenciáveis, excluindo assim a maioria dos sinais de recompensa importantes do mundo real, por exemplo, recompensas não diferenciáveis, como a semelhança binária humana, contagens de objetos, etc. Para incorporar adequadamente recompensas não diferenciáveis para melhorar os modelos generativos de poucos passos, introduzimos o TDM-R1, um novo paradigma de aprendizagem por reforço construído sobre um modelo líder de poucos passos, o Trajectory Distribution Matching (TDM). O TDM-R1 desacopla o processo de aprendizagem em aprendizagem de recompensa substituta e aprendizagem do gerador. Além disso, desenvolvemos métodos práticos para obter sinais de recompensa por passo ao longo da trajetória determinística de geração do TDM, resultando em um método unificado de pós-treinamento por RL que melhora significativamente a capacidade dos modelos de poucos passos com recompensas genéricas. Realizamos extensos experimentos que variam desde renderização de texto, qualidade visual e alinhamento de preferências. Todos os resultados demonstram que o TDM-R1 é um paradigma de aprendizagem por reforço poderoso para modelos de texto para imagem de poucos passos, alcançando desempenhos de RL de última geração em métricas tanto dentro quanto fora do domínio. Além disso, o TDM-R1 também escala efetivamente para o recente e forte modelo Z-Image, superando consistentemente tanto as suas variantes de 100-NFE quanto as de poucos passos com apenas 4 NFEs. Página do projeto: https://github.com/Luo-Yihong/TDM-R1
Os Vision Transformers (ViTs) frequentemente degradam-se sob mudanças de distribuição porque dependem de correlações espúrias, como pistas de fundo, em vez de características semanticamente significativas. Os métodos de regularização existentes, que geralmente dependem de máscaras simples de primeiro plano e fundo, falham em capturar os conceitos semânticos de granularidade fina que definem um objeto (por exemplo, "bico longo" e "asas" para um "pássaro"). Consequentemente, esses métodos oferecem robustez limitada a mudanças de distribuição. Para superar esta limitação, introduzimos uma nova estrutura de *finetuning* que direciona o raciocínio do modelo para semântica a nível conceptual. A nossa abordagem otimiza os mapas de relevância internos do modelo para se alinharem com máscaras conceptuais espacialmente fundamentadas. Estas máscaras são geradas automaticamente, sem anotação manual: os conceitos relevantes para a classe são primeiro propostos usando um método baseado em LLM e sem *labels*, e depois segmentados usando um VLM. O objetivo do *finetuning* é alinhar a relevância com estas regiões conceptuais, suprimindo simultaneamente o foco em áreas de fundo espúrias. Notavelmente, este processo requer apenas um conjunto mínimo de imagens e utiliza metade das classes do conjunto de dados. Extensas experiências em cinco *benchmarks* de distribuição externa demonstram que o nosso método melhora a robustez em vários modelos baseados em ViT. Além disso, mostramos que os mapas de relevância resultantes exibem um alinhamento mais forte com partes semânticas de objetos, oferecendo um caminho escalável para modelos de visão mais robustos e interpretáveis. Finalmente, confirmamos que as máscaras guiadas por conceitos fornecem uma supervisão mais eficaz para a robustez do modelo do que os mapas de segmentação convencionais, apoiando a nossa hipótese central.
A fase de inicialização a frio (cold-start) desempenha um papel fundamental no treinamento de Modelos de Grande Raciocínio Multimodal (MLRMs), mas os seus mecanismos permanecem insuficientemente compreendidos. Para analisar esta fase, introduzimos o *Visual Attention Score* (VAS), uma métrica baseada em atenção que quantifica o quanto um modelo atende a *tokens* visuais. Descobrimos que o desempenho do raciocínio está fortemente correlacionado com o VAS (r=0,9616): modelos com VAS mais elevado alcançam um raciocínio multimodal substancialmente mais forte. Surpreendentemente, a inicialização a frio multimodal não consegue elevar o VAS, resultando em distribuições de atenção próximas às do modelo base, enquanto a inicialização a frio apenas com texto leva a um aumento claro. Denominamos este fenómeno contra-intuitivo de *Lazy Attention Localization* (Localização Preguiçosa da Atenção). Para validar o seu papel causal, concebemos intervenções sem treino que modulam diretamente a alocação de atenção durante a inferência, obtendo ganhos de desempenho de 1-2% sem qualquer retreino. Com base nestas perceções, propomos ainda a *Attention-Guided Visual Anchoring and Reflection* (AVAR), uma estrutura abrangente de inicialização a frio que integra a síntese de dados com ancoragem visual, objetivos guiados pela atenção e modelação de recompensas com ancoragem visual. Aplicada ao Qwen2.5-VL-7B, a AVAR alcança um ganho médio de 7,0% em 7 *benchmarks* de raciocínio multimodal. Estudos de ablação confirmam ainda que cada componente da AVAR contribui de forma incremental para os ganhos globais. O código, os dados e os modelos estão disponíveis em https://github.com/lrlbbzl/Qwen-AVAR.
Os métodos existentes de personalização de conceitos têm alcançado resultados notáveis em personalização de alta fidelidade e múltiplos conceitos. No entanto, eles frequentemente negligenciam a influência no comportamento e nas capacidades do modelo original ao aprender novos conceitos personalizados. Para resolver esta questão, propomos o PureCC. O PureCC introduz um novo objetivo de aprendizado desacoplado para personalização de conceitos, que combina a orientação implícita do conceito-alvo com a previsão condicional original. Esta forma separada permite que o PureCC se concentre substancialmente no modelo original durante o treinamento. Além disso, com base neste objetivo, o PureCC concebe um pipeline de treinamento de duplo ramo que inclui um extrator congelado que fornece representações purificadas do conceito-alvo como orientação implícita e um modelo de fluxo treinável que produz a previsão condicional original, alcançando conjuntamente um aprendizado puro para conceitos personalizados. Adicionalmente, o PureCC introduz uma nova escala de orientação adaptativa λ^star para ajustar dinamicamente a força de orientação do conceito-alvo, equilibrando a fidelidade de personalização e a preservação do modelo. Experimentos extensivos demonstram que o PureCC alcança desempenho de última geração na preservação do comportamento e capacidades originais, enquanto permite a personalização de conceitos com alta fidelidade. O código está disponível em https://github.com/lzc-sg/PureCC.
O cenário de assistência de codificação com IA está passando por uma mudança fundamental: da complexidade de plugins para IDE para agentes versáteis e nativos do terminal. Operando diretamente onde os desenvolvedores gerenciam controle de código-fonte, executam compilações e implantam ambientes, os agentes baseados em CLI oferecem autonomia sem precedentes para tarefas de desenvolvimento de longo prazo. Neste artigo, apresentamos o OPENDEV, um agente de codificação de código aberto em linha de comando, projetado especificamente para este novo paradigma. Uma assistência autónoma eficaz requer controlos de segurança rigorosos e uma gestão de contexto altamente eficiente para prevenir a inflação de contexto e a degradação do raciocínio. O OPENDEV supera estes desafios através de uma arquitetura de sistema de IA composta com roteamento de modelos especializado por carga de trabalho, uma arquitetura de agente duplo que separa o planeamento da execução, descoberta de ferramentas *lazy* e compactação de contexto adaptativa que reduz progressivamente observações mais antigas. Além disso, emprega um sistema de memória automatizado para acumular conhecimento específico do projeto entre sessões e neutraliza o desvanecimento de instruções através de lembretes do sistema acionados por eventos. Ao impor fases de raciocínio explícitas e priorizar a eficiência de contexto, o OPENDEV fornece uma base segura e extensível para a assistência de IA com foco no terminal, oferecendo um modelo para uma engenharia de software autónoma robusta.
Os modelos de linguagem autoregressivos (AR) dependem de tokenização causal, mas estender este paradigma para a visão permanece não trivial. Os tokenizadores visuais atuais ou aplanam patches 2D em sequências não causais ou impõem ordenações heurísticas que se desalinh am do padrão de "previsão do próximo token". Os auto codificadores de difusão recentes igualmente ficam aquém: condicionar o decodificador em todos os tokens carece de causalidade, enquanto aplicar o mecanismo de *dropout* aninhado introduz desequilíbrio. Para enfrentar estes desafios, apresentamos o CaTok, um tokenizador de imagem causal 1D com um decodificador MeanFlow. Ao selecionar tokens em intervalos de tempo e vinculá-los ao objetivo MeanFlow, como ilustrado na Fig. 1, o CaTok aprende representações causais 1D que suportam tanto a geração rápida em uma etapa como a amostragem de alta fidelidade em múltiplas etapas, capturando naturalmente diversos conceitos visuais através dos intervalos de tokens. Para estabilizar e acelerar ainda mais o treino, propomos uma regularização direta REPA-A, que alinha as características do codificador com Modelos de Base de Visão (VFMs). Experiências demonstram que o CaTok alcança resultados de última geração na reconstrução do ImageNet, atingindo 0.75 FID, 22.53 PSNR e 0.674 SSIM com menos épocas de treino, e o modelo AR atinge um desempenho comparável às principais abordagens.
Os modelos visão-linguagem (VLMs) emergiram como uma direção promissora para a condução autónoma de ponta a ponta, modelando conjuntamente observações visuais, contexto de condução e raciocínio baseado em linguagem. No entanto, os sistemas existentes baseados em VLMs enfrentam um compromisso entre o raciocínio de alto nível e o planeamento de movimento: modelos grandes oferecem uma forte compreensão semântica, mas são dispendiosos de adaptar para um controlo preciso, enquanto os modelos VLM pequenos podem ser afinados de forma eficiente, mas frequentemente exibem um raciocínio mais fraco. Propomos o NaviDriveVLM, uma arquitetura desacoplada que separa o raciocínio da geração de ações usando um Navegador de grande escala e um Condutor leve e treinável. Este projeto preserva a capacidade de raciocínio, reduz o custo de treino e fornece uma representação intermédia explícita e interpretável para o planeamento subsequente. Experiências no benchmark nuScenes mostram que o NaviDriveVLM supera as linhas de base de VLM grandes no planeamento de movimento de ponta a ponta.
A sintonia de instruções baseada em CLIP permite que os Modelos de Visão e Linguagem (VLMs) pré-treinados se adaptem eficientemente a tarefas subsequentes. Embora os estudos existentes tenham feito progressos significativos, eles dedicam atenção limitada às mudanças nas representações internas de atenção dos VLMs durante o processo de sintonia. Neste artigo, atribuímos os modos de falha das previsões da sintonia de instruções a desvios na atenção ao primeiro plano do codificador visual e propomos a Sintonia de Instruções Guiada por Visão do Primeiro Plano (FVG-PT), um módulo adaptativo de orientação de atenção ao primeiro plano do tipo "plug-and-play", para aliviar esses desvios. Concretamente, o FVG-PT introduz um Portão de Confiabilidade do Primeiro Plano treinável para melhorar automaticamente a qualidade da visão do primeiro plano, aplica um módulo de Compensação por Destilação do Primeiro Plano para orientar a atenção visual para o primeiro plano, e introduz ainda um módulo de Calibração Prévia para mitigar a degradação da generalização causada pelo foco excessivo no primeiro plano. Experimentos em múltiplos modelos de base e conjuntos de dados mostram a eficácia e compatibilidade do FVG-PT. Os códigos estão disponíveis em: https://github.com/JREion/FVG-PT
A formação de modelos de geração de código de próxima geração requer conjuntos de dados de alta qualidade, no entanto, os conjuntos de dados existentes enfrentam desequilíbrio de dificuldade, inconsistência de formato e problemas de qualidade dos dados. Abordamos esses desafios através de um processamento sistemático de dados e escalonamento de dificuldade. Introduzimos uma Estrutura de Processamento de Dados em quatro estágios, abrangendo coleta, processamento, filtragem e verificação, incorporando uma Filtragem Automática de Dificuldade através de uma estrutura predizer-calibrar-selecionar baseada em LLM que aproveita métricas de dificuldade multidimensionais em cinco dimensões ponderadas para reter problemas desafiadores, removendo os simplistas. O conjunto de dados MicroCoder resultante compreende dezenas de milhares de problemas curados e reais de programação competitiva de diversas plataformas, com ênfase na atualidade e dificuldade. Avaliações no estritamente não visto LiveCodeBench demonstram que o MicroCoder alcança ganhos de desempenho 3 vezes maiores dentro de 300 etapas de treinamento em comparação com conjuntos de dados de linha de base amplamente utilizados de tamanho comparável, com vantagens consistentes sob os algoritmos de treinamento GRPO e sua variante. O conjunto de dados MicroCoder proporciona melhorias óbvias em problemas médios e difíceis em diferentes tamanhos de modelo, alcançando ganhos relativos de até 17,2% no desempenho geral onde as capacidades do modelo são mais exigidas. Esses resultados validam que a curadoria de dados consciente da dificuldade melhora o desempenho do modelo em tarefas desafiadoras, fornecendo múltiplos insights para a criação de conjuntos de dados na geração de código.
Os modelos modernos de geração de código apresentam saídas mais longas, crescimento acelerado de capacidades e dinâmicas de treinamento alteradas, tornando as metodologias, algoritmos e conjuntos de dados de treinamento tradicionais ineficazes para melhorar seu desempenho. Para enfrentar esses gargalos de treinamento, propomos o MicroCoder-GRPO, uma abordagem aprimorada de Otimização de Política Relativa em Grupo com três inovações: mascaramento condicional de truncamento para melhorar o potencial de saída longa mantendo a estabilidade do treinamento, seleção de temperatura baseada em diversidade para manter e incentivar a diversidade de saída, e remoção da perda KL com altas taxas de recorte para facilitar a diversidade de soluções. O MicroCoder-GRPO alcança uma melhoria relativa de até 17,6% sobre linhas de base robustas no LiveCodeBench v6, com ganhos mais pronunciados sob avaliação de contexto estendido. Adicionalmente, lançamos o MicroCoder-Dataset, um corpus de treinamento mais desafiador que obtém ganhos de desempenho 3 vezes maiores do que conjuntos de dados convencionais no LiveCodeBench v6 dentro de 300 etapas de treinamento, e o MicroCoder-Evaluator, um framework robusto com aproximadamente 25% de precisão de avaliação melhorada e execução cerca de 40% mais rápida. Através de análise abrangente em mais de trinta experimentos controlados, revelamos 34 insights de treinamento em sete aspectos principais, demonstrando que modelos adequadamente treinados podem alcançar desempenho competitivo com contrapartes maiores.
A esparsidade semiestruturada N:M e a quantização de baixos bits (por exemplo, BitNet de 1,58 bits) são duas abordagens promissoras para melhorar a eficiência de grandes modelos de linguagem (LLMs), mas têm sido amplamente estudadas de forma isolada. Neste trabalho, investigamos a sua interação e mostramos que o BitNet de 1,58 bits é naturalmente mais compatível com a esparsidade N:M do que os modelos de precisão completa. Para estudar este efeito, propomos o Sparse-BitNet, uma estrutura unificada que aplica conjuntamente a quantização de 1,58 bits e a esparsificação dinâmica N:M, garantindo, pela primeira vez, um treinamento estável. Em várias escalas de modelo e regimes de treinamento (pré-treinamento esparso e cronogramas denso-para-esparso), o BitNet de 1,58 bits exibe consistentemente uma degradação de desempenho menor do que as linhas de base de precisão completa nos mesmos níveis de esparsidade e pode tolerar uma esparsidade estruturada mais elevada antes do colapso da precisão. Além disso, usando o nosso núcleo de tensor esparso personalizado, o Sparse-BitNet alcança acelerações substanciais tanto no treinamento quanto na inferência, chegando até a 1,30X. Estes resultados destacam que combinar quantização extremamente baixa em bits com esparsidade semiestruturada N:M é uma direção promissora para LLMs eficientes. Código disponível em https://github.com/AAzdi/Sparse-BitNet.
À medida que a criação de conteúdo em vídeo se desloca para narrativas de formato longo, a composição de clipes curtos em enredos coerentes torna-se cada vez mais importante. No entanto, as formulações de recuperação predominantes permanecem independentes de contexto no momento da inferência, priorizando o alinhamento semântico local enquanto negligenciam a consistência de estado e identidade. Para abordar esta limitação estrutural, formalizamos a tarefa de Recuperação de Vídeo Consistente (CVR) e introduzimos um benchmark de diagnóstico que abrange YouCook2, COIN e CrossTask. Propomos o CAST (Context-Aware State Transition), um adaptador leve e plug-and-play compatível com diversos espaços de incorporação visão-linguagem congelados. Ao prever uma atualização residual condicionada ao estado (Δ) a partir do histórico visual, o CAST introduz um viés indutivo explícito para a evolução do estado latente. Experimentos extensivos mostram que o CAST melhora o desempenho no YouCook2 e no CrossTask, mantém-se competitivo no COIN e supera consistentemente as linhas de base zero-shot em diversas arquiteturas base de fundação. Além disso, o CAST fornece um sinal útil de rerranqueamento para candidatos de geração de vídeo de caixa preta (por exemplo, do Veo), promovendo continuações temporalmente mais coerentes.
Os modelos de linguagem autorregressivos (AR) formam representações incrementalmente através da previsão esquerda-para-direita, enquanto os modelos de linguagem de difusão (dLLMs) são treinados via desruído de sequência completa. Embora dLLMs recentes igualem o desempenho AR, permanece incerto se os objetivos de difusão remodelam fundamentalmente as representações internas ao longo da profundidade da rede. Realizamos a primeira análise representacional por camada e por *token* comparando dLLMs nativos (LLaDA), modelos AR nativos (Qwen2.5) e dLLMs inicializados com AR (Dream-7B). Descobrimos que os objetivos de difusão resultam em abstrações diferentes e mais hierárquicas, com redundância substancial nas camadas iniciais e viés de recência reduzido, enquanto os objetivos AR produzem representações fortemente acopladas e dependentes da profundidade. Criticamente, os dLLMs inicializados com AR mantêm dinâmicas representacionais semelhantes às do AR, apesar do treinamento por difusão, revelando um viés de inicialização persistente. Aproveitando essa redundância representacional observada, introduzimos um método estático e agnóstico à tarefa de salto de camadas (*layer-skipping*) durante a inferência, que não requer alterações arquiteturais nem compartilhamento de cache KV. Os dLLMs nativos alcançam uma redução de até 18,75% nos FLOPS, preservando mais de 90% do desempenho em benchmarks de raciocínio e geração de código, enquanto os modelos AR degradam-se acentuadamente sob um salto comparável. Esses resultados conectam objetivos de treinamento à estrutura representacional e permitem ganhos de eficiência práticos e ortogonais ao cache.
Apresentamos o OfficeQA Pro, um benchmark para avaliar agentes de IA em tarefas de raciocínio fundamentado e multidocumental sobre um corpus documental extenso e heterogêneo. O corpus é composto por *U.S. Treasury Bulletins* abrangendo quase 100 anos, totalizando 89.000 páginas e mais de 26 milhões de valores numéricos. O OfficeQA Pro consiste em 133 questões que exigem análise documental precisa, recuperação de informação e raciocínio analítico sobre dados não estruturados em texto e dados tabulares. Modelos de linguagem de última geração, incluindo Claude Opus 4.6, GPT-5.4 e Gemini 3.1 Pro Preview, atingem menos de 5% de precisão no OfficeQA Pro ao depender apenas do conhecimento paramétrico, e menos de 12% com acesso adicional à web. Quando o corpus documental é fornecido diretamente, os agentes de ponta ainda têm dificuldade em mais da metade das questões, alcançando uma pontuação média de 34,1%. Verificamos que fornecer aos agentes uma representação documental estruturada, produzida pela função `ai_parse_document` da Databricks, resulta em um ganho médio de desempenho relativo de 16,1% entre os agentes. Realizamos ainda *ablations* adicionais para estudar os efeitos da seleção do modelo, da representação de tabelas, da estratégia de recuperação e do *scaling* no momento do teste sobre o desempenho. Apesar dessas melhorias, ainda há um espaço significativo de evolução antes que os agentes possam ser considerados confiáveis para raciocínio fundamentado em nível empresarial.
A edição baseada em prompts diretos frequentemente falha em transformações complexas, pois prompts vagos e subjetivos exigem uma compreensão matizada do que deve ser alterado na imagem. Nossa intuição central é que alavancar ferramentas de edição de imagem composicionais, em vez de prompts diretos, beneficia-se de um planejamento estruturado em nível de agente com raciocínio explícito, levando a melhores resultados. Esta estrutura de planejamento estruturado permite um treinamento posterior eficiente de RL offline em trajetórias com pontuação de qualidade para melhorar o desempenho. Apresentamos uma estrutura de treinamento posterior de RL agentico baseada em ferramentas que aborda isso através de planejamento estruturado com raciocínio em cadeia. Nossas principais contribuições incluem: (1) Uma metodologia de planejamento agentico baseada em ferramentas que combina uma biblioteca composicional de transformações primitivas ortogonais, representação de contexto estruturada e raciocínio explícito por etapa para decompor estilizações complexas em sequências de ferramentas interpretáveis. (2) Um pipeline de geração de dados sintéticos que produz três conjuntos de dados em larga escala (cada um com ~10K trajetórias simuladas) com cadeias de raciocínio, planos e pontuações de qualidade, uma vez que nenhum conjunto de dados existente fornece tal supervisão. Nossos conjuntos de dados e código estão publicamente disponíveis no repositório HuggingFace. (3) Métodos de treinamento de RL offline para aprender planejadores com raciocínio como nossas principais contribuições algorítmicas, que melhoram consistentemente a linha de base de apenas edição em qualidade visual e seguimento de instruções. (4) Avaliação abrangente em modelos Qwen3-VL de 4B e 8B de parâmetros, mostrando que nossos métodos superam outras linhas de base na maioria das tarefas composicionais, validado por avaliações humanas.
Os modelos generativos de vídeo de mundo recentes visam simular a evolução do ambiente visual, permitindo que um observador explore interativamente a cena através do controle da câmera. No entanto, eles assumem implicitamente que o mundo só evolui dentro do campo de visão do observador. Uma vez que um objeto sai do campo de visão do observador, seu estado é "congelado" na memória, e revisitar a mesma região mais tarde frequentemente falha em refletir eventos que deveriam ter ocorrido nesse intervalo. Neste trabalho, identificamos e formalizamos essa limitação negligenciada como o problema da "dinâmica fora de vista", que impede os modelos de vídeo de mundo de representar um mundo em evolução contínua. Para resolver esta questão, propomos o LiveWorld, uma nova estrutura que estende os modelos de vídeo de mundo para suportar a evolução mundial persistente. Em vez de tratar o mundo como uma memória observacional estática, o LiveWorld modela um estado global persistente composto por um fundo 3D estático e entidades dinâmicas que continuam evoluindo mesmo quando não observadas. Para manter essas dinâmicas não vistas, o LiveWorld introduz um mecanismo baseado em monitor que simula autonomamente a progressão temporal de entidades ativas e sincroniza seus estados evoluídos ao revisitar, garantindo uma renderização espacialmente coerente. Para avaliação, introduzimos ainda o LiveBench, um benchmark dedicado à tarefa de manutenção de dinâmicas fora de vista. Experimentos extensivos mostram que o LiveWorld permite a evolução persistente de eventos e a consistência de cena de longo prazo, preenchendo a lacuna entre a memória baseada em observação 2D existente e a verdadeira simulação de mundo dinâmico 4D. A linha de base e o benchmark estarão publicamente disponíveis em https://zichengduan.github.io/LiveWorld/index.html.
Neste artigo, abordamos o problema da transferência de políticas táteis do simulador para o mundo real (sim-to-real) para tarefas ricas em contacto. Os métodos existentes concentram-se principalmente em sensores baseados em visão e enfatizam a qualidade de renderização de imagens, fornecendo, contudo, modelos excessivamente simplificados de força e cisalhamento. Consequentemente, estes modelos exibem uma grande lacuna sim-to-real para muitas tarefas que requerem destreza. Apresentamos aqui o HydroShear, um simulador tátil hidroelástico não-holonómico que avança o estado da arte ao modelar: a) transições de aderência-deslizamento (stick-slip), b) acumulação de força e cisalhamento dependente do percurso, e c) interações completas SE(3) entre o objeto e o sensor. O HydroShear estende os modelos de contacto hidroelásticos utilizando Funções de Distância com Sinal (SDFs) para rastrear os deslocamentos dos pontos na superfície de um indentador durante a interação física com a membrana do sensor. A nossa abordagem gera campos de força baseados na física e computacionalmente eficientes a partir de geometrias estanques arbitrárias, mantendo-se agnóstica em relação ao motor de física subjacente. Em experiências com sensores GelSight Mini, o HydroShear reproduz o cisalhamento tátil real de forma mais fidedigna do que os métodos existentes. Esta fidelidade permite a transferência sim-to-real de políticas de aprendizagem por reforço sem necessidade de ajuste (zero-shot) em quatro tarefas: inserção de pino, empacotamento em caixas, arrumação de livros para inserção e abertura de gavetas para controlo fino da garra sob deslizamento. O nosso método atinge uma taxa média de sucesso de 93%, superando políticas treinadas em imagens táteis (34%) e métodos alternativos de simulação de cisalhamento (58%-61%).
Os modelos de base estão em transição de preditores offline para sistemas implantados que devem operar em horizontes temporais longos. Em implantações reais, os objetivos não são fixos: os domínios mudam, as preferências dos usuários evoluem e novas tarefas surgem após o modelo ser disponibilizado. Isso eleva o aprendizado contínuo e a personalização instantânea de características opcionais para requisitos arquiteturais centrais. No entanto, a maioria dos pipelines de adaptação ainda segue um paradigma de pesos estáticos: após o treinamento (ou após qualquer etapa de adaptação), a inferência executa um único vetor de parâmetros, independentemente da intenção do usuário, do domínio ou das restrições específicas da instância. Isso trata o modelo treinado ou adaptado como um único ponto no espaço de parâmetros. Em regimes heterogêneos e em contínua evolução, objetivos distintos podem induzir regiões viáveis separadas sobre os parâmetros, forçando qualquer atualização compartilhada única a um compromisso, interferência ou superespecialização. Como resultado, o aprendizado contínuo e a personalização são frequentemente implementados como uma sobrescrição repetida de pesos compartilhados, arriscando a degradação de comportamentos aprendidos anteriormente. Propomos o HY-WU (Weight Unleashing), um framework de adaptação com prioridade em memória que desloca a pressão de adaptação para longe da sobrescrição de um único ponto de parâmetro compartilhado. O HY-WU implementa memória funcional (em nível de operador) como um módulo neural: um gerador que sintetiza atualizações de pesos dinamicamente a partir da condição da instância, produzindo operadores específicos da instância sem otimização em tempo de teste.
Os slides servem como um meio crítico para transmitir informações em cenários orientados para apresentações, como academia, educação e negócios. Apesar de sua importância, a criação de decks de slides de alta qualidade continua a ser uma tarefa demorada e cognitivamente exigente. Os recentes avanços em modelos generativos, como o Nano Banana Pro, tornaram a geração automatizada de slides cada vez mais viável. No entanto, as avaliações existentes sobre a geração de slides são frequentemente de granularidade grossa e baseiam-se em julgamentos holísticos, dificultando a avaliação precisa das capacidades dos modelos ou o acompanhamento de avanços significativos na área. Na prática, a falta de critérios de avaliação finamente granulares e verificáveis representa um gargalo crítico tanto para a pesquisa quanto para a implantação no mundo real. Neste artigo, propomos o PresentBench, um benchmark baseado em rubricas e de granularidade fina para avaliar a geração automatizada de slides do mundo real. Ele contém 238 instâncias de avaliação, cada uma complementada com materiais de apoio necessários para a criação dos slides. Além disso, projetamos manualmente uma média de 54,1 itens de lista de verificação por instância, cada um formulado como uma pergunta binária, para permitir uma avaliação fina e específica da instância dos decks de slides gerados. Experimentos extensivos mostram que o PresentBench fornece resultados de avaliação mais confiáveis do que os métodos existentes e exibe um alinhamento significativamente mais forte com as preferências humanas. Além disso, nosso benchmark revela que o NotebookLM supera significativamente outros métodos de geração de slides, destacando um progresso substancial recente neste domínio.
A destilação de conhecimento (KD) tem sido amplamente aplicada na segmentação semântica para comprimir modelos grandes, mas as abordagens convencionais priorizam a preservação da precisão intra-domínio, negligenciando a generalização extra-domínio, que é essencial sob mudanças de distribuição. Esta limitação torna-se mais severa com o surgimento dos modelos de base de visão (VFMs): embora os VFMs exibam forte robustez em dados não vistos, destilá-los com KD convencional frequentemente compromete esta capacidade. Propomos a Destilação de Conhecimento Generalizável (GKD), uma estrutura multiestágio que explicitamente melhora a generalização. A GKD desacopla a aprendizagem de representação da aprendizagem de tarefa. No primeiro estágio, o estudante adquire representações agnósticas de domínio através de destilação seletiva de características, e no segundo estágio, estas representações são congeladas para adaptação à tarefa, mitigando assim o sobreajuste a domínios visíveis. Para suportar ainda mais a transferência, introduzimos um mecanismo de destilação suave baseado em consultas, onde as características do estudante atuam como consultas às representações do professor para recuperar seletivamente conhecimento espacial transferível dos VFMs. Experimentos extensivos em cinco benchmarks de generalização de domínio demonstram que a GKD supera consistentemente os métodos de KD existentes, alcançando ganhos médios de +1,9% na destilação base-para-base (F2F) e +10,6% na destilação base-para-local (F2L). O código estará disponível em https://github.com/Younger-hua/GKD.
Os modelos linguísticos modernos ainda dependem de tokenizações de subpalavras fixas e pré-definidas. Uma vez que um tokenizador é treinado, o modelo de linguagem só pode operar neste nível fixo de granularidade, o que frequentemente leva a comportamentos frágeis e contra-intuitivos, mesmo em modelos de raciocínio robustos. Apresentamos o ByteFlow Net, uma nova arquitetura hierárquica que elimina completamente os tokenizadores e, em vez disso, permite que os modelos aprendam sua própria segmentação de fluxos de bytes brutos em unidades semanticamente significativas. O ByteFlow Net realiza uma segmentação orientada por compressão com base na taxa de codificação das representações latentes, produzindo limites adaptativos enquanto preserva um grafo de computação estático via seleção Top-K. Diferente de métodos anteriores de auto-tokenização que dependem de heurísticas frágeis com vieses indutivos projetados por humanos, o ByteFlow Net adapta sua granularidade de representação interna ao próprio *input*. Experimentos demonstram que esta estratégia de segmentação baseada em compressão produz ganhos substanciais de desempenho, com o ByteFlow Net superando tanto os *Transformers* baseados em BPE quanto arquiteturas anteriores de nível de byte. Estes resultados sugerem que a modelagem *end-to-end* e livre de tokenizadores não só é viável, mas também mais eficaz, abrindo um caminho para modelos de linguagem mais adaptativos e fundamentados na informação.
A otimização manual de kernels de GPU é uma tarefa desafiadora e demorada. Com o rápido desenvolvimento dos LLMs, a otimização automatizada de kernels de GPU está gradualmente se tornando uma realidade tangível. No entanto, os métodos atuais de otimização automatizada baseados em LLMs concentram-se de forma restrita em aplicações de aprendizado de máquina, como a otimização de operadores do PyTorch, enquanto negligenciam domínios mais amplos, como as operações com matrizes esparsas na computação científica. A extensão para essas aplicações mais abrangentes traz novos desafios para o benchmark e para o algoritmo. Portanto, o desenvolvimento de um método de otimização automatizada de kernels de propósito geral torna-se o nosso foco principal. Neste artigo, abordamos a ausência de avaliação sistemática para configurações multicontexto através da introdução do MSKernelBench, que abrange múltiplos cenários, incluindo operações algébricas fundamentais, kernels comuns de LLM, operadores de matrizes esparsas e rotinas de computação científica, cada um suportando precisões FP32 e BF16. Com base neste benchmark, introduzimos o CUDAMaster, um sistema multiagente e consciente do hardware para otimização de kernels que aproveita informações de profiling e constrói automaticamente a cadeia completa de ferramentas de compilação e execução. Os resultados experimentais demonstram que o CUDAMaster alcança acelerações significativas na maioria dos operadores, superando o Astra em cerca de 35%. Em vários casos, o seu desempenho iguala ou supera o de bibliotecas altamente otimizadas e de código fechado, como a cuBLAS. Uma demonstração que exibe o código original e otimizado para cada operador está disponível em https://hanyx2021.github.io/MSKernelBenchDemo/.
Os mapas de fluxo permitem a geração de imagens de alta qualidade em uma única passagem direta. No entanto, ao contrário dos modelos de difusão iterativos, a falta de uma trajetória de amostragem explícita impede a incorporação de restrições externas para geração condicional e a resolução de problemas inversos. Apresentamos os Mapas de Fluxo Variacionais (Variational Flow Maps - VFMs), uma estrutura para amostragem condicional que muda a perspectiva do condicionamento de "guiar um caminho de amostragem" para a de "aprender o ruído inicial adequado". Especificamente, dada uma observação, procuramos aprender um modelo adaptador de ruído que produza uma distribuição de ruído, de modo que, após o mapeamento para o espaço de dados via mapa de fluxo, as amostras respeitem a observação e o priori dos dados. Para tanto, desenvolvemos um objetivo variacional fundamentado que treina conjuntamente o adaptador de ruído e o mapa de fluxo, melhorando o alinhamento ruído-dados, de forma que a amostragem a partir de um posterior de dados complexo seja alcançada com um simples adaptador. Experimentos em vários problemas inversos mostram que os VFMs produzem amostras condicionais bem calibradas em uma única (ou poucas) etapa(s). Para o ImageNet, o VFM atinge uma fidelidade competitiva enquanto acelera a amostragem em ordens de magnitude em comparação com modelos alternativos de difusão/fluxo iterativos. O código está disponível em https://github.com/abbasmammadov/VFM.
Prever como as células respondem a perturbações genéticas é fundamental para compreender a função dos genes, os mecanismos das doenças e o desenvolvimento de terapias. Embora abordagens recentes de aprendizagem profunda tenham mostrado potencial na modelização de respostas a perturbações em células únicas, elas lutam para generalizar entre tipos celulares e contextos de perturbação devido a informações contextuais limitadas durante a geração. Apresentamos o PT-RAG (Perturbation-aware Two-stage Retrieval-Augmented Generation), uma estrutura inovadora que estende a Geração Aumentada por Recuperação para além das aplicações tradicionais de modelos de linguagem, aplicando-a à biologia celular. Ao contrário dos sistemas RAG padrão concebidos para recuperação de texto com LLMs pré-treinados, a recuperação de perturbações carece de métricas de similaridade estabelecidas e requer a aprendizagem do que constitui um contexto relevante, tornando a recuperação diferenciável essencial. O PT-RAG aborda esta questão através de um *pipeline* em duas fases: primeiro, recupera perturbações candidatas K usando incorporações do GenePT, depois refina adaptativamente a seleção através de uma amostragem discreta de Gumbel-Softmax condicionada tanto pelo estado da célula como pela perturbação de entrada. Esta recuperação diferenciável e consciente do tipo celular permite a otimização de ponta a ponta do objetivo de recuperação em conjunto com a geração. No conjunto de dados de perturbação de gene único Replogle-Nadig, demonstramos que o PT-RAG supera tanto o STATE como o RAG padrão em condições experimentais idênticas, com os ganhos mais significativos nas métricas de similaridade distribucional (W_1, W_2). É notável que o fracasso dramático do RAG padrão é, por si só, uma descoberta fundamental: demonstra que uma recuperação diferenciável e consciente do tipo celular é essencial neste domínio, e que uma recuperação ingénua pode ativamente prejudicar o desempenho. Os nossos resultados estabelecem a geração aumentada por recuperação como um paradigma promissor para modelar respostas celulares a perturbações genéticas. O código para reproduzir as nossas experiências está disponível em https://github.com/difra100/PT-RAG_ICLR.
Os agentes modernos de interface gráfica do usuário (GUI) baseados em modelos visão-linguagem (VLM) são esperados não apenas para executar ações com precisão, mas também para responder às instruções do usuário com baixa latência. Embora a pesquisa existente sobre segurança de agentes GUI foque principalmente na manipulação da correção das ações, os riscos de segurança relacionados à eficiência de resposta permanecem amplamente inexplorados. Neste artigo, apresentamos o SlowBA, um novo ataque backdoor que visa a capacidade de resposta de agentes GUI baseados em VLM. A ideia central é manipular a latência de resposta induzindo cadeias de raciocínio excessivamente longas sob padrões específicos de gatilho. Para alcançar este objetivo, propomos uma estratégia de injeção de backdoor em nível de recompensa (RBI) em dois estágios que primeiro alinha o formato de resposta longa e depois aprende a ativação consciente do gatilho através de aprendizado por reforço. Adicionalmente, projetamos janelas pop-up realistas como gatilhos que aparecem naturalmente em ambientes GUI, melhorando a discrição do ataque. Experimentos extensos em múltiplos conjuntos de dados e linhas de base demonstram que o SlowBA pode aumentar significativamente o comprimento da resposta e a latência, preservando em grande parte a precisão da tarefa. O ataque mantém-se eficaz mesmo com uma pequena proporção de envenenamento e sob várias configurações de defesa. Essas descobertas revelam uma vulnerabilidade de segurança previamente negligenciada em agentes GUI e destacam a necessidade de defesas que considerem tanto a correção das ações quanto a eficiência de resposta. O código pode ser encontrado em https://github.com/tu-tuing/SlowBA.
Estudamos a autodifusioforese de uma partícula quimicamente ativa e esférica próxima a uma parede plana e impermeável, com foco na influência da orientação da partícula na propulsão. Analisamos uma partícula de Janus com atividade química superficial assimétrica, composta por uma pequena região inerte dentro de uma calota cataliticamente ativa. Embora simulações numéricas tenham sido utilizadas para estudar tais partículas, elas encontram dificuldades em resolver o escoamento e o transporte no regime de extrema proximidade da parede devido ao confinamento geométrico e aos gradientes íngremes de concentração de soluto. Abordamos essa limitação por meio de uma análise assintótica no limite de quase contacto, onde a folga entre a partícula e a parede é estreita. Em particular, consideramos o limite distinto no qual a região inerte é assintoticamente comparável em tamanho à região de lubrificação. Analisamos uma configuração axisimétrica na qual a face inerte está orientada paralelamente à parede e estendemos a análise para orientações ligeiramente inclinadas. Constatamos que o capsize determina se uma partícula inclinada gira de volta para o estado axisimétrico ou continua a reorientar-se, caracterizando assim a sua estabilidade rotacional no regime de quase contacto.
Saídas diversas na geração de texto são necessárias para uma exploração eficaz em tarefas de raciocínio complexo, como geração de código e resolução de problemas matemáticos. Problemas do tipo Pass@k beneficiam de candidatos distintos que cobrem o espaço de soluções. No entanto, as abordagens de amostragem tradicionais frequentemente desperdiçam recursos computacionais em modos de falha repetitivos. Embora os Modelos de Linguagem de Difusão tenham surgido como uma alternativa competitiva ao paradigma Autoregressivo predominante, eles permanecem suscetíveis a essa redundância, com amostras independentes frequentemente colapsando em modos semelhantes. Para resolver isso, propomos uma intervenção de baixo custo e sem necessidade de treinamento para melhorar a diversidade generativa em Modelos de Linguagem de Difusão. Nossa abordagem modifica sequencialmente amostras intermediárias em um lote, onde cada amostra é repelida do espaço de características das amostras anteriores, penalizando ativamente a redundância. Diferente de métodos anteriores que exigem retreinamento ou busca por feixe, nossa estratégia incorre em sobrecarga computacional insignificante, garantindo que cada amostra contribua com uma perspetiva única para o lote. Avaliamos nosso método nos benchmarks HumanEval e GSM8K usando o modelo LLaDA-8B-Instruct. Nossos resultados demonstram uma diversidade e desempenho Pass@k significativamente melhorados em várias configurações de temperatura. Como uma modificação simples no processo de amostragem, nosso método oferece uma melhoria imediata e de baixo custo para os atuais e futuros Modelos de Linguagem de Difusão em tarefas que beneficiam de uma busca diversificada por soluções. Disponibilizamos nosso código em https://github.com/sean-lamont/odd.
O fluxo de tráfego urbano é governado pela interação complexa e não linear entre a configuração do uso do solo e a demanda de mobilidade espaciotemporalmente heterogênea. Modelos convencionais de regressão global e de séries temporais não conseguem capturar simultaneamente essas dinâmicas multiescala em múltiplos modos de viagem. Este estudo propõe um quadro analítico Híbrido de GeoAI que integra sequencialmente Regressão Geograficamente Ponderada Multiescala (MGWR), Floresta Aleatória (RF) e Redes Neurais Convolucionais de Grafos Espaço-Temporais (ST-GCN) para modelar a heterogeneidade espaciotemporal dos padrões de fluxo de tráfego e sua interação com o uso do solo em três modos de mobilidade: veículos motorizados, transporte público e transporte ativo. Aplicando o quadro a um conjunto de dados empiricamente calibrado de 350 zonas de análise de tráfego em seis cidades que abrangem duas morfologias urbanas contrastantes, quatro descobertas principais emergem: (i) o Híbrido de GeoAI alcança um erro quadrático médio (RMSE) de 0,119 e um R² de 0,891, superando todos os benchmarks em 23-62%; (ii) a análise SHAP identifica a mistura de usos do solo como o preditor mais forte para fluxos de veículos motorizados e a densidade de pontos de parada como o preditor mais forte para o transporte público; (iii) a clusterização DBSCAN identifica cinco tipologias de tráfego urbano funcionalmente distintas com um índice de silhueta de 0,71, e os resíduos do Híbrido de GeoAI exibem I de Moran=0,218 (p<0,001), uma redução de 72% em relação às baselines de MQO; e (iv) experimentos de transferência entre cidades revelam transferibilidade moderada dentro de clusters (R²>=0,78) e generalizabilidade limitada entre clusters, ressaltando a primazia do contexto morfológico urbano. O quadro oferece a planejadores e engenheiros de transporte um kit de ferramentas interpretável e escalável para a gestão baseada em evidências da mobilidade multimodal e o desenho de políticas de uso do solo.
O rastreamento de pontos arbitrários (TAP) é uma tarefa fundamental, mas desafiadora, na visão computacional, exigindo alta precisão e raciocínio de movimento de longo prazo. Tentativas recentes de combinar quadros RGB e fluxos de eventos mostraram-se promissoras, mas normalmente dependem de fusão síncrona ou não adaptativa, resultando em desalinhamento temporal e degradação severa quando uma modalidade falha. Apresentamos o TAPFormer, uma arquitetura baseada em transformers que realiza uma fusão temporalmente consistente e assíncrona de quadros e eventos para um rastreamento robusto e de alta frequência de pontos arbitrários. Nossa principal inovação é um mecanismo de Fusão Assíncrona Transitória (TAF), que modela explicitamente a evolução temporal entre quadros discretos por meio de atualizações contínuas de eventos, preenchendo a lacuna entre quadros de baixa taxa e eventos de alta taxa. Além disso, um módulo de Fusão Ponderada Localmente entre Modalidades (CLWF) ajusta adaptativamente a atenção espacial de acordo com a confiabilidade da modalidade, produzindo características estáveis e discriminativas mesmo sob desfoque ou pouca luz. Para avaliar nossa abordagem em condições realistas, construímos um novo conjunto de dados TAP de quadros-eventos do mundo real sob diversas condições de iluminação e movimento. Nosso método supera os rastreadores de pontos existentes, alcançando uma melhoria de 28,2% no erro médio de pixel dentro do limite. Além disso, em benchmarks padrão de rastreamento de pontos, nosso rastreador alcança consistentemente o melhor desempenho. Site do projeto: tapformer.github.io
Os modelos generativos de difusão são cada vez mais utilizados para aumento de dados em imagens médicas, mas a geração por prompts textuais não pode produzir dados de treinamento causais. O re-prompting reinicia toda a trajetória de geração, alterando anatomia, textura e fundo. Métodos de edição baseados em inversão introduzem erro de reconstrução que causa desvio estrutural. Propomos o MedSteer, uma estrutura de direcionamento de ativação sem treinamento para síntese endoscópica. O MedSteer identifica um vetor de patologia para cada par de prompts contrastantes nas camadas de atenção cruzada de um transformador de difusão. No momento da inferência, ele direciona as ativações da imagem ao longo deste vetor, gerando pares contrafactuais do zero onde a única diferença é o conceito direcionado. Todas as outras estruturas são preservadas por construção. Avaliamos o MedSteer em três experimentos com Kvasir v3 e HyperKvasir. Na geração contrafactual em três pares de conceitos clínicos, o MedSteer alcança taxas de alternância de 0,800, 0,925 e 0,950, superando a melhor linha de base baseada em inversão tanto na taxa de alternância de conceito quanto na preservação estrutural. No desacoplamento de corante, o MedSteer alcança 75% de remoção de corante contra 20% (PnP) e 10% (h-Edit). Na detecção downstream de pólipos, aumentar com pares contrafactuais do MedSteer alcança AUC ViT de 0,9755 versus 0,9083 para re-prompting com quantidade equivalente, confirmando que a estrutura contrafactual impulsiona o ganho. O código está em https://github.com/phamtrongthang123/medsteer.
Os modelos de mundo permitem o planeamento num espaço futuro previsto e imaginado, oferecendo uma estrutura promissora para a navegação incorporada. No entanto, os modelos de mundo de navegação existentes carecem frequentemente de consistência condicionada por ação, pelo que previsões visualmente plausíveis podem ainda desviar-se sob rollouts multi-etapa e degradar o planeamento. Além disso, uma implementação eficiente requer inferência por difusão em poucas etapas, mas os métodos de destilação existentes não preservam explicitamente a consistência do rollout, criando uma discrepância entre treino e inferência. Para enfrentar estes desafios, propomos o MWM, um modelo de mundo móvel para navegação por objetivo de imagem baseada em planeamento. Especificamente, introduzimos uma estrutura de treino em duas fases que combina pré-treino de estrutura com pós-treino de Consistência Condicionada por Ação (ACC) para melhorar a consistência do rollout condicionado por ação. Introduzimos ainda a Destilação de Estado Consistente com a Inferência (ICSD) para destilação por difusão em poucas etapas com uma consistência de rollout melhorada. As nossas experiências em tarefas de benchmark e do mundo real demonstram ganhos consistentes em fidelidade visual, precisão da trajetória, sucesso do planeamento e eficiência da inferência. Código: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.
A Imitação de Aprendizagem (IL) permite que robôs adquiram habilidades de manipulação a partir de demonstrações de especialistas. A Política de Difusão (DP) modela comportamentos especialistas multimodais, mas sofre degradação de desempenho à medida que os horizontes de observação aumentam, limitando a manipulação de longo horizonte. Propomos o Módulo de Atenção com Porta Auto-Evolutiva (SEGA), um módulo temporal que mantém um estado latente em evolução temporal via atenção com porta, permitindo atualizações recorrentes eficientes que comprimem observações de longo horizonte numa representação de tamanho fixo, filtrando ao mesmo tempo informações temporais irrelevantes. A integração do SEGA na DP resulta na Política de Difusão Auto-Evolutiva (SeedPolicy), que resolve o estrangulamento da modelação temporal e permite uma extensão escalável do horizonte com sobrecarga moderada. No benchmark RoboTwin 2.0 com 50 tarefas de manipulação, a SeedPolicy supera a DP e outras linhas de base de IL. Na média de ambas as arquiteturas base (CNN e Transformer), a SeedPolicy alcança uma melhoria relativa de 36,8% em configurações limpas e uma melhoria relativa de 169% em configurações desafiantes randomizadas em relação à DP. Comparada com modelos visão-linguagem-ação, como o RDT com 1,2 mil milhões de parâmetros, a SeedPolicy alcança um desempenho competitivo com uma a duas ordens de grandeza menos parâmetros, demonstrando forte eficiência e escalabilidade. Estes resultados estabelecem a SeedPolicy como um método state-of-the-art em imitação de aprendizagem para manipulação robótica de longo horizonte. O código está disponível em: https://github.com/Youqiang-Gui/SeedPolicy.