Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Green-VLA, uma estrutura Vision-Language-Action (VLA) em estágios para implantação no mundo real no robô humanoide Green, mantendo a generalização entre diversas embodimentos. O Green-VLA segue um currículo de cinco estágios: (L0) modelos de linguagem visual fundamentais, (L1) fundamentação multimodal, (R0) pré-treinamento multi-embodiment, (R1) adaptação específica à embodiment e (R2) alinhamento de política por aprendizagem por reforço (RL). Acoplamos um pipeline escalável de processamento de dados (3.000 horas de demonstrações) com alinhamento temporal e filtragem de qualidade, e usamos uma interface de ação unificada e consciente da embodiment, permitindo que uma única política controle humanoides, manipuladores móveis e braços de base fixa. Na inferência, o controlador VLA é aprimorado com previsão do progresso do episódio, detecção de dados fora da distribuição e orientação baseada em previsão conjunta para melhorar a segurança e a seleção precisa de alvos. Experimentos no Simpler BRIDGE WidowX e CALVIN ABC-D, bem como avaliações em robôs reais, mostram forte generalização e ganhos de desempenho provenientes do alinhamento por RL em taxa de sucesso, robustez e eficiência em horizontes longos.
Apresentamos o Kimi K2.5, um modelo agente multimodal de código aberto projetado para avançar a inteligência agente geral. O K2.5 enfatiza a otimização conjunta de texto e visão para que as duas modalidades se reforcem mutuamente. Isso inclui uma série de técnicas, como pré-treinamento conjunto texto-visão, SFT (Fine-Tuning Supervisionado) de visão zero e aprendizado por reforço conjunto texto-visão. Com base nesta fundação multimodal, o K2.5 introduz o Agent Swarm, uma estrutura de orquestração de agentes paralelos autodirigida que decompõe dinamicamente tarefas complexas em subproblemas heterogêneos e os executa simultaneamente. Avaliações extensivas mostram que o Kimi K2.5 alcança resultados de ponta em vários domínios, incluindo codificação, visão, raciocínio e tarefas agentes. O Agent Swarm também reduz a latência em até 4,5 vezes em comparação com linhas de base de agente único. Disponibilizamos o *checkpoint* do modelo Kimi K2.5 pós-treinado para facilitar pesquisas futuras e aplicações do mundo real em inteligência agente.
Os modelos de linguagem grandes multimodais (MLLMs) alcançaram sucesso notável em uma ampla gama de tarefas visuais. No entanto, limitados pela capacidade de seu conhecimento interno do mundo, trabalhos anteriores propuseram aprimorar os MLLMs por meio de "raciocínio-depois-chamada-de-ferramenta" para motores de busca visuais e textuais, obtendo ganhos substanciais em tarefas que exigem informações factuais extensas. Contudo, essas abordagens normalmente definem a busca multimodal em um cenário ingênuo, assumindo que uma única consulta de imagem em nível completo ou de entidade e poucas consultas textuais são suficientes para recuperar a evidência chave necessária para responder à pergunta, o que é irrealista em cenários do mundo real com ruído visual substancial. Além disso, elas são frequentemente limitadas na profundidade de raciocínio e na amplitude de busca, dificultando a resolução de questões complexas que exigem a agregação de evidências de diversas fontes visuais e textuais. Com base nisso, propomos o Vision-DeepResearch, que introduz um novo paradigma de pesquisa profunda multimodal, ou seja, realiza buscas visuais e textuais multi-turno, multi-entidade e multi-escala para impactar robustamente os motores de busca do mundo real sob ruído intenso. Nosso Vision-DeepResearch suporta dezenas de etapas de raciocínio e centenas de interações com o motor, enquanto internaliza capacidades de pesquisa profunda no MLLM por meio de supervisão de *cold-start* e treinamento por RL, resultando em um MLLM de pesquisa profunda multimodal forte e de ponta a ponta. Ele supera substancialmente os MLLMs de pesquisa profunda multimodal existentes e fluxos de trabalho construídos sobre modelos de base de código fechado fortes, como GPT-5, Gemini-2.5-pro e Claude-4-Sonnet. O código será liberado em https://github.com/Osilly/Vision-DeepResearch.
Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) avançaram significativamente na área de VQA (Visual Question Answering) e agora suportam sistemas de Visão-PesquisaAprofundada que utilizam motores de busca para investigação factual complexa envolvendo elementos visuais e textuais. No entanto, a avaliação dessas capacidades de busca visual e textual ainda é desafiadora, e os benchmarks existentes apresentam duas limitações principais. Primeiro, os benchmarks atuais não são centrados na busca visual: respostas que deveriam exigir busca visual são frequentemente vazadas por meio de pistas textuais cruzadas nas perguntas ou podem ser inferidas a partir do conhecimento mundial prévio incorporado nos MLLMs atuais. Segundo, um cenário de avaliação excessivamente idealizado: no lado da busca por imagens, a informação necessária pode frequentemente ser obtida através de correspondência quase exata com a imagem completa, enquanto o lado da busca textual é excessivamente direto e insuficientemente desafiador. Para resolver essas questões, construímos o benchmark Visão-PesquisaAprofundada (VDR-Bench) composto por 2.000 instâncias de VQA. Todas as perguntas foram criadas por meio de um cuidadoso pipeline de curadoria em múltiplas etapas e revisão rigorosa por especialistas, projetado para avaliar o comportamento dos sistemas de Visão-PesquisaAprofundada sob condições realistas do mundo real. Além disso, para abordar as capacidades insuficientes de recuperação visual dos MLLMs atuais, propomos um fluxo de trabalho simples de busca com recorte em múltiplas rodadas. Essa estratégia demonstrou melhorar efetivamente o desempenho do modelo em cenários realistas de recuperação visual. No geral, nossos resultados fornecem orientações práticas para o projeto de futuros sistemas multimodais de pesquisa aprofundada. O código será disponibilizado em https://github.com/Osilly/Vision-DeepResearch.
Os agentes de repositório atuais enfrentam uma desconexão de raciocínio devido a representações fragmentadas, uma vez que os métodos existentes dependem de documentação de API isolada ou grafos de dependência que carecem de profundidade semântica. Consideramos a compreensão e geração de repositórios como processos inversos dentro de um ciclo unificado: a geração expande a intenção em implementação, enquanto a compreensão comprime a implementação de volta em intenção. Para resolver isso, propomos o RPG-Encoder, uma estrutura que generaliza o Grafo de Planejamento de Repositório (RPG) de um blueprint generativo estático para uma representação unificada de alta fidelidade. O RPG-Encoder fecha o ciclo de raciocínio através de três mecanismos: (1) Codificação de código bruto no RPG que combina características semânticas elevadas com dependências de código; (2) Evolução incremental da topologia para desacoplar custos de manutenção da escala do repositório, reduzindo sobrecarga em 95,7%; e (3) Operação como uma interface unificada para navegação com consciência estrutural. Nas avaliações, o RPG-Encoder estabelece o estado da arte em compreensão de repositórios no SWE-bench Verified com 93,7% Acc@5 e supera a melhor baseline em mais de 10% no SWE-bench Live Lite. Esses resultados destacam nossa precisão superior de localização em granularidade fina em bases de código complexas. Além disso, atinge 98,5% de cobertura de reconstrução no RepoCraft, confirmando a capacidade de alta fidelidade do RPG em espelhar a base de código original e fechando o ciclo entre intenção e implementação.
Os modelos multimodais unificados frequentemente lutam com tarefas de síntese complexas que exigem raciocínio profundo, tratando tipicamente a geração de texto para imagem e a edição de imagens como capacidades isoladas, em vez de etapas interconectadas de raciocínio. Para resolver isso, propomos o UniReason, uma estrutura unificada que harmoniza essas duas tarefas através de um paradigma de raciocínio duplo. Formulamos a geração como planejamento aprimorado por conhecimento mundial para injetar restrições implícitas, e aproveitamos as capacidades de edição para refinamento visual de granularidade fina, corrigindo ainda mais erros visuais através da autorreflexão. Esta abordagem unifica geração e edição dentro de uma representação compartilhada, espelhando o processo cognitivo humano de planejamento seguido por refinamento. Suportamos esta estrutura através da construção sistemática de um conjunto de dados de grande escala centrado no raciocínio (~300 mil amostras) abrangendo cinco domínios principais de conhecimento (por exemplo, senso cultural comum, física, etc.) para planejamento, juntamente com um corpus gerado por agente para autocorreção visual. Experimentos extensivos demonstram que o UniReason alcança desempenho avançado em benchmarks intensivos em raciocínio, como WISE, KrisBench e UniREditBench, mantendo capacidades gerais de síntese superiores.
Propomos o SWE-Universe, uma estrutura escalável e eficiente para a construção automática de ambientes verificáveis de engenharia de software (SWE) do mundo real a partir de pull requests (PRs) do GitHub. Para superar os desafios prevalecentes da construção automática, como baixo rendimento de produção, verificadores fracos e custo proibitivo, nossa estrutura utiliza um agente de construção alimentado por um modelo eficiente e treinado sob medida. Este agente emprega autoverificação iterativa e detecção de hacking em loop para garantir a geração confiável de tarefas verificáveis de alta fidelidade. Usando este método, escalamos o número de ambientes SWE multilingues do mundo real para uma escala de milhões (807.693). Demonstramos o valor profundo dos nossos ambientes por meio de mid-training agentivo em larga escala e aprendizado por reforço. Por fim, aplicamos esta técnica ao Qwen3-Max-Thinking e alcançamos uma pontuação de 75,3% no SWE-Bench Verified. O nosso trabalho fornece tanto um recurso crítico quanto uma metodologia robusta para avançar a próxima geração de agentes de codificação.
A pesquisa aprofundada está emergindo como uma tarefa representativa de longo horizonte para agentes de modelos de linguagem grandes (LLMs). No entanto, trajetórias longas em pesquisas profundas frequentemente excedem os limites de contexto do modelo, comprimindo o orçamento de tokens tanto para a coleta de evidências quanto para a redação do relatório, e impedindo um escalonamento eficaz em tempo de teste. Apresentamos o FS-Researcher, uma estrutura de agente duplo baseada em sistema de arquivos que escala a pesquisa profunda além da janela de contexto por meio de um espaço de trabalho persistente. Especificamente, um agente Construtor de Contexto atua como um bibliotecário que navega na internet, escreve notas estruturadas e arquiva fontes brutas em uma base de conhecimento hierárquica que pode crescer muito além do comprimento do contexto. Um agente Redator de Relatório então compõe o relatório final seção por seção, tratando a base de conhecimento como a fonte de fatos. Nesta estrutura, o sistema de arquivos serve como uma memória externa durável e um meio de coordenação compartilhado entre agentes e sessões, permitindo um refinamento iterativo além da janela de contexto. Experimentos em dois benchmarks de resposta aberta (DeepResearch Bench e DeepConsult) mostram que o FS-Researcher alcança a qualidade de relatório state-of-the-art em diferentes modelos de base. Análises adicionais demonstram uma correlação positiva entre a qualidade final do relatório e a computação alocada para o Construtor de Contexto, validando um escalonamento eficaz em tempo de teste sob o paradigma do sistema de arquivos. O código e os dados são disponibilizados anonimamente em https://github.com/Ignoramus0817/FS-Researcher.
A difusão de pixels gera imagens diretamente no espaço de pixels de forma ponta a ponta, evitando os artefatos e gargalos introduzidos por VAEs na difusão latente em dois estágios. No entanto, é desafiador otimizar variedades de pixels de alta dimensão que contêm muitos sinais perceptualmente irrelevantes, fazendo com que os métodos existentes de difusão de pixels fiquem aquém dos modelos de difusão latente. Propomos o PixelGen, uma estrutura simples de difusão de pixels com supervisão perceptual. Em vez de modelar a variedade completa da imagem, o PixelGen introduz duas perdas perceptual complementares para orientar o modelo de difusão a aprender uma variedade perceptual mais significativa. Uma perda LPIPS facilita a aprendizagem de melhores padrões locais, enquanto uma perda perceptual baseada em DINO fortalece a semântica global. Com supervisão perceptual, o PixelGen supera fortes linhas de base de difusão latente. Alcança um FID de 5.11 no ImageNet-256 sem orientação livre de classificador usando apenas 80 épocas de treinamento, e demonstra desempenho de escalabilidade favorável na geração de texto para imagem em larga escala com uma pontuação GenEval de 0.79. O PixelGen não requer VAEs, nem representações latentes, nem estágios auxiliares, oferecendo um paradigma generativo mais simples, porém mais poderoso. Os códigos estão publicamente disponíveis em https://github.com/Zehong-Ma/PixelGen.
A Aprendizagem Progressiva (AP) reduz a sobrecarga computacional de pré-treinamento ao aumentar gradualmente a escala do modelo. Embora trabalhos anteriores tenham explorado extensivamente a expansão em profundidade, a expansão em largura permanece significativamente menos estudada, com os poucos métodos existentes limitados às fases iniciais do treinamento. No entanto, expandir a largura durante a fase intermediária é essencial para maximizar a economia computacional, mas continua sendo um desafio formidável devido a severas instabilidades de treinamento. Empiricamente, demonstramos que uma inicialização ingênua nesta fase perturba as estatísticas de ativação, desencadeando picos de perda, enquanto a inicialização baseada em cópia introduz simetria de gradiente que prejudica a diversidade de características. Para resolver esses problemas, propomos o SPARKLING (equilibrando a {P}reservação de {S}inal e a quebra de simet{R}ia para a{A}prendizagem {L}arga-{P}rogressiva), uma nova estrutura para expansão de largura em fase intermediária. Nosso método alcança a preservação do sinal via consistência de escala RMS, estabilizando as estatísticas de ativação durante a expansão. A quebra de simetria é garantida através de redefinição assimétrica do estado do otimizador e reaquecimento da taxa de aprendizagem. Experimentos extensos em modelos de Mistura de Especialistas (MoE) demonstram que, em múltiplos eixos de largura e famílias de otimizadores, o SPARKLING supera consistentemente o treinamento a partir do zero e reduz o custo de treinamento em até 35% sob uma expansão de largura de 2 vezes.
A recomendação baseada em ID Semântico (SID) é um paradigma promissor para a escalabilidade de sistemas de recomendação sequencial, mas os métodos existentes seguem amplamente um pipeline centrado na semântica: as incorporações de itens são aprendidas a partir de modelos de base e discretizadas usando esquemas de quantização genéricos. Este design está desalinhado com os objetivos da recomendação generativa: as incorporações semânticas estão fracamente acopladas com a predição colaborativa, e a quantização genérica é ineficiente na redução da incerteza sequencial para a modelagem autoregressiva. Para resolver estas questões, propomos o ReSID, uma estrutura SID principista e nativa para recomendação que repensa a aprendizagem de representações e a quantização a partir da perspetiva da preservação de informação e da previsibilidade sequencial, sem depender de LLMs. O ReSID consiste em dois componentes: (i) *Field-Aware Masked Auto-Encoding* (FAMAE), que aprende representações de itens preditivamente suficientes a partir de características estruturadas, e (ii) *Globally Aligned Orthogonal Quantization* (GAOQ), que produz sequências SID compactas e previsíveis através da redução conjunta da ambiguidade semântica e da incerteza condicional ao prefixo. A análise teórica e experiências extensas em dez conjuntos de dados mostram a eficácia do ReSID. O ReSID supera consistentemente *baselines* fortes de recomendação sequencial e generativa baseada em SID numa média superior a 10%, enquanto reduz o custo de tokenização em até 122x. O código está disponível em https://github.com/FuCongResearchSquad/ReSID.
O pós-treinamento de LLMs de raciocínio é um processo holístico que normalmente consiste numa fase offline de SFT (Supervised Fine-Tuning) seguida por uma fase online de aprendizagem por reforço (RL). No entanto, o SFT é frequentemente otimizado de forma isolada para maximizar apenas o desempenho no SFT. Demonstramos que, após um treino de RL idêntico, os modelos inicializados a partir de *checkpoints* de SFT mais fortes podem ter um desempenho significativamente inferior ao daqueles inicializados a partir de *checkpoints* mais fracos. Atribuímos isto a um desalinhamento típico nos atuais *pipelines* SFT-RL: a distribuição que gera os dados offline de SFT pode diferir substancialmente da política otimizada durante o RL online, que aprende a partir das suas próprias experiências (*rollouts*). Propomos o PEAR (*Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting*), um método para a fase de SFT que corrige este desalinhamento e prepara melhor o modelo para o RL. O PEAR usa amostragem por importância para reponderar a perda do SFT, com três variantes que operam aos níveis do *token*, do bloco e da sequência. Pode ser usado para aumentar os objetivos padrão do SFT e incorre em pouca sobrecarga adicional de treino após as probabilidades para os dados offline serem recolhidas. Realizámos experiências controladas em jogos de raciocínio verificáveis e tarefas de raciocínio matemático nos modelos Qwen 2.5 e 3 e nos modelos *distilled* do DeepSeek. O PEAR melhorou consistentemente o desempenho pós-RL em relação ao SFT canónico, com ganhos na métrica *pass@8* de até 14,6% no AIME2025. Os nossos resultados sugerem que o PEAR é um passo eficaz para um pós-treinamento de LLMs mais holístico, ao conceber e avaliar o SFT tendo em conta o RL subsequente, e não de forma isolada.
Os Modelos de Mundo (WMs) de Interface Gráfica de Utilizador (GUI) Móvel oferecem um caminho promissor para melhorar o desempenho de agentes de GUI móvel durante o treino e a inferência. No entanto, as abordagens atuais enfrentam um compromisso crítico: os WMs baseados em texto sacrificam a fidelidade visual, enquanto a incapacidade dos WMs visuais na renderização precisa de texto levou à sua dependência de *pipelines* lentos e complexos, dependentes de numerosos modelos externos. Propomos um novo paradigma: a modelação visual do mundo através da geração de código renderizável, onde um único Modelo de Visão e Linguagem (VLM) prevê o próximo estado da GUI como código web executável que é renderizado em píxeis, em vez de gerar píxeis diretamente. Isto combina os pontos fortes de ambas as abordagens: os VLMs mantêm os seus *priors* linguísticos para uma renderização de texto precisa, enquanto o seu pré-treino em código web estruturado permite uma geração visual de alta fidelidade. Apresentamos o gWorld (8B, 32B), os primeiros WMs visuais de GUI móvel de peso aberto (*open-weight*) construídos sobre este paradigma, juntamente com um *framework* de geração de dados (gWorld) que sintetiza automaticamente dados de treino baseados em código. Numa avaliação extensa em 4 *benchmarks* dentro da distribuição e 2 fora da distribuição, o gWorld estabelece uma nova fronteira de Pareto em precisão versus tamanho do modelo, superando 8 modelos de peso aberto de ponta com tamanhos até 50,25x maiores. Análises adicionais mostram que (1) a escala de dados de treino através do gWorld produz ganhos significativos, (2) cada componente do nosso *pipeline* melhora a qualidade dos dados, e (3) uma modelação de mundo mais forte melhora o desempenho da política de GUI móvel a jusante.
A Geração Aumentada por Recuperação Baseada em Grafos (GraphRAG) organiza o conhecimento externo como um grafo hierárquico, permitindo a recuperação eficiente e a agregação de evidências dispersas em vários documentos. No entanto, muitos benchmarks existentes para GraphRAG dependem de passagens curtas e selecionadas como conhecimento externo, falhando em avaliar adequadamente os sistemas em contextos realistas que envolvem textos longos e documentos heterogêneos em larga escala. Para preencher essa lacuna, introduzimos o WildGraphBench, um benchmark projetado para avaliar o desempenho do GraphRAG em cenários reais. Aproveitamos a estrutura única da Wikipedia, onde narrativas coesas são fundamentadas em documentos de referência externos longos e heterogêneos, para construir um benchmark que reflita cenários do mundo real. Especificamente, amostramos artigos em 12 tópicos de alto nível, usando suas referências externas como corpus de recuperação e declarações vinculadas a citações como ground truth, resultando em 1.100 questões abrangendo três níveis de complexidade: Q&A de fato único, Q&A de múltiplos fatos e sumarização a nível de seção. Experimentos com várias linhas de base revelam que os pipelines atuais de GraphRAG ajudam na agregação de múltiplos fatos quando as evidências vêm de um número moderado de fontes, mas esse paradigma de agregação pode superenfatizar declarações de alto nível em detrimento de detalhes refinados, levando a um desempenho mais fraco em tarefas de sumarização. Página do projeto: https://github.com/BstWPY/WildGraphBench.
O raciocínio em cadeia de pensamento levou os grandes modelos de linguagem a evoluir do pensamento baseado em texto para o pensamento com imagens e vídeos. No entanto, diferentes modalidades ainda apresentam limitações claras: imagens estáticas têm dificuldade em representar estrutura temporal, enquanto vídeos introduzem redundância substancial e custo computacional elevado. Neste trabalho, propomos Pensar com Histórias em Quadrinhos, um paradigma de raciocínio visual que utiliza quadrinhos como meio de alta densidade informacional posicionado entre imagens e vídeos. Os quadrinhos preservam estrutura temporal, texto incorporado e coerência narrativa, exigindo um custo de raciocínio significativamente menor. Estudamos sistematicamente dois caminhos de raciocínio baseados em quadrinhos e os avaliamos em uma série de tarefas de raciocínio e tarefas de compreensão de contexto longo. Resultados experimentais demonstram que Pensar com Quadrinhos supera o Pensar com Imagens em tarefas de raciocínio temporal e causal de múltiplas etapas, mantendo-se substancialmente mais eficiente que o Pensar com Vídeo. Análises adicionais indicam que diferentes estruturas e estilos narrativos dos quadrinhos afetam consistentemente o desempenho entre tarefas, sugerindo que os quadrinhos funcionam como uma representação visual intermediária eficaz para aprimorar o raciocínio multimodal.
Propomos o RLAnything, uma estrutura de aprendizagem por reforço que forja dinamicamente modelos de ambiente, política e recompensa através de otimização em ciclo fechado, amplificando sinais de aprendizagem e fortalecendo o sistema global de RL para quaisquer cenários de LLM ou agentes inteligentes. Especificamente, a política é treinada com feedback integrado de sinais passo a passo e de resultado, enquanto o modelo de recompensa é otimizado conjuntamente via feedback de consistência, o que por sua vez melhora ainda mais o treino da política. Adicionalmente, a nossa adaptação automática de ambiente, fundamentada teoricamente, melhora o treino tanto dos modelos de recompensa como de política, aproveitando o feedback do crítico de cada um, permitindo a aprendizagem pela experiência. Empiricamente, cada componente adicionado melhora consistentemente o sistema global, e o RLAnything produz ganhos substanciais em várias tarefas representativas de LLM e agentes, aumentando o Qwen3-VL-8B-Thinking em 9.1% no OSWorld e o Qwen2.5-7B-Instruct em 18.7% e 11.9% no AlfWorld e LiveBench, respetivamente. Também verificamos que os sinais do modelo de recompensa otimizado superam resultados que dependem de rótulos humanos. Código: https://github.com/Gen-Verse/Open-AgentRL
Os Agentes de Pesquisa Profunda (DRAs) demonstraram capacidades notáveis na recuperação autónoma de informação e geração de relatórios, mostrando grande potencial para auxiliar humanos em tarefas de pesquisa complexas. As estruturas de avaliação atuais baseiam-se principalmente em referências geradas por LLM ou em dimensões de avaliação derivadas de LLM. Embora estas abordagens ofereçam escalabilidade, frequentemente carecem da confiabilidade de conteúdo verificado por especialistas e lutam para fornecer avaliações objetivas e granulares de dimensões críticas. Para colmatar esta lacuna, introduzimos o Wiki Live Challenge (WLC), um benchmark dinâmico que aproveita os Artigos Bons (Good Articles - GAs) mais recentes da Wikipedia como referências de nível especializado. Os rigorosos padrões da Wikipedia para neutralidade, abrangência e verificabilidade representam um grande desafio para os DRAs, sendo os GAs o expoente máximo desses padrões. Criámos um conjunto de dados com 100 Artigos Bons recentes e propomos o Wiki Eval, uma estrutura de avaliação abrangente que inclui um método de avaliação granular com 39 critérios para qualidade de escrita e métricas rigorosas para verificabilidade factual. Experiências extensivas com vários sistemas DRA demonstram uma diferença significativa entre os DRAs atuais e os artigos da Wikipedia de nível especializado humano, validando a eficácia do WLC no avanço da pesquisa em agentes. Disponibilizamos o nosso benchmark em https://github.com/WangShao2000/Wiki_Live_Challenge.
Os métodos de otimização direta de preferências surgiram como uma alternativa computacionalmente eficiente ao Aprendizado por Reforço com Feedback Humano (RLHF) para alinhar Modelos de Linguagem de Grande Escala (LLMs). As abordagens mais recentes simplificaram o processo de alinhamento através da derivação de funções de recompensa implícitas, mas frequentemente sofrem de um desalinhamento crítico de objetivos: otimizar a margem relativa entre respostas escolhidas e rejeitadas não garante a preservação da probabilidade absoluta da resposta escolhida. Isso pode levar ao "desaprendizado", onde o modelo degrada a probabilidade de saídas de alta qualidade para satisfazer restrições de margem, e ao "colapso de formatação" causado pela superpenalização de sequências rejeitadas. Neste trabalho, introduzimos o SLIME (Estabilização de Probabilidade com Imposição Implícita de Margem), um objetivo de alinhamento sem referência projetado para desacoplar o aprendizado de preferências da qualidade de geração. O SLIME incorpora um objetivo triplo: (1) um termo de ancoragem para maximizar a probabilidade das respostas preferidas; (2) uma penalidade estabilizadora que impede o colapso para zero das probabilidades dos tokens rejeitados; e (3) um mecanismo de margem dupla que combina restrições rígidas e flexíveis para moldagem precisa de fronteiras. Nossos resultados demonstram que o SLIME alcança desempenho superior comparado aos métodos state-of-the-art, mantendo maior estabilidade na geração.
Os modelos de difusão de vídeo autoregressivos permitem a geração em fluxo contínuo, abrindo caminho para a síntese de vídeos de longa duração, modelos de mundo de vídeo e motores de jogos neurais interativos. No entanto, suas camadas de atenção centrais tornam-se um grande gargalo no tempo de inferência: à medida que a geração progride, a cache de chaves-valores (KV) cresce, causando tanto latência crescente quanto aumento progressivo da memória da GPU, o que, por sua vez, restringe o contexto temporal utilizável e prejudica a consistência de longo alcance. Neste trabalho, estudamos a redundância na difusão de vídeo autoregressiva e identificamos três fontes persistentes: chaves em cache quase duplicadas entre quadros, consultas/chaves que evoluem lentamente (em grande parte semânticas) que tornam muitos cálculos de atenção redundantes, e a atenção cruzada sobre *prompts* longos, onde apenas um pequeno subconjunto de *tokens* é relevante por quadro. Com base nessas observações, propomos uma estrutura de atenção unificada e livre de treinamento para difusão autoregressiva: TempCache comprime a cache KV via correspondência temporal para limitar seu crescimento; AnnCA acelera a atenção cruzada selecionando *tokens* do *prompt* relevantes para o quadro usando correspondência aproximada de vizinhos mais próximos (ANN) rápida; e AnnSA esparsifica a auto-atenção restringindo cada consulta a chaves semanticamente correspondentes, também usando um ANN leve. Juntos, esses módulos reduzem a atenção, o cálculo e a memória, sendo compatíveis com *backbones* de difusão autoregressiva e modelos de mundo existentes. Experimentos demonstram acelerações de até 5x a 10x de ponta a ponta, preservando qualidade visual quase idêntica e, crucialmente, mantendo uma taxa de transferência estável e um uso de memória de pico da GPU quase constante durante *rollouts* longos, onde os métodos anteriores tornam-se progressivamente mais lentos e sofrem com o aumento do uso de memória.
Para alcançar a geração de vídeo interativa em tempo real, os métodos atuais destilam modelos bidirecionais de difusão de vídeo pré-treinados em modelos autorregressivos (AR) de poucos passos, enfrentando uma lacuna arquitetônica quando a atenção completa é substituída por atenção causal. No entanto, as abordagens existentes não superam teoricamente essa lacuna. Elas inicializam o aluno AR via destilação ODE, que requer injetividade a nível de quadro, onde cada quadro ruidoso deve mapear para um quadro limpo único sob o PF-ODE de um professor AR. Destilar um aluno AR a partir de um professor bidirecional viola essa condição, impedindo a recuperação do mapa de fluxo do professor e induzindo uma solução de expectativa condicional, o que degrada o desempenho. Para resolver este problema, propomos o Causal Forcing, que utiliza um professor AR para inicialização ODE, superando assim a lacuna arquitetônica. Resultados empíricos mostram que nosso método supera todas as linhas de base em todas as métricas, ultrapassando o estado da arte Self Forcing em 19,3% no Dynamic Degree, 8,7% no VisionReward e 16,7% no Instruction Following. Página do projeto e código: https://thu-ml.github.io/CausalForcing.github.io/
A geração de texto para vídeo (T2V) visa sintetizar vídeos com alta qualidade visual e consistência temporal que estejam semanticamente alinhados com o texto de entrada. O pós-treinamento baseado em recompensas surgiu como uma direção promissora para melhorar a qualidade e o alinhamento semântico dos vídeos gerados. No entanto, os métodos recentes ou dependem de anotações em larga escala de preferências humanas ou operam em *embeddings* desalinhados de modelos pré-treinados de visão e linguagem, resultando em escalabilidade limitada ou supervisão subótima. Apresentamos o PISCES, um algoritmo de pós-treinamento sem anotações que aborda essas limitações por meio de um novo módulo de Recompensas Alinhadas por Transporte Ótimo (TO) Duplo. Para alinhar os sinais de recompensa com o julgamento humano, o PISCES usa TO para conectar os *embeddings* de texto e vídeo tanto em nível distribucional quanto em nível de *tokens* discretos, permitindo que a supervisão por recompensa cumpra dois objetivos: (i) uma Recompensa de Qualidade Alinhada por TO Distribucional que captura a qualidade visual geral e a coerência temporal; e (ii) uma Recompensa Semântica Alinhada por TO em Nível de *Tokens* Discretos que impõe a correspondência semântica espaço-temporal entre os *tokens* de texto e vídeo. Até onde sabemos, o PISCES é o primeiro a melhorar a supervisão de recompensa sem anotações no pós-treinamento generativo através da lente do TO. Experimentos na geração de vídeos curtos e longos mostram que o PISCES supera tanto métodos baseados em anotações quanto métodos sem anotações no VBench em pontuações de Qualidade e Semântica, com estudos de preferência humana validando ainda mais sua eficácia. Mostramos que o módulo de Recompensas Alinhadas por TO Duplo é compatível com múltiplos paradigmas de otimização, incluindo retropropagação direta e *fine-tuning* por aprendizagem por reforço.
Embora a geração de imagens a partir de texto tenha alcançado uma fidelidade sem precedentes, a grande maioria dos modelos existentes funciona fundamentalmente como decodificadores estáticos de texto para pixel. Consequentemente, eles frequentemente falham em compreender as intenções implícitas do usuário. Embora os modelos unificados emergentes de compreensão-geração tenham melhorado a compreensão de intenções, eles ainda lutam para realizar tarefas que envolvem raciocínio complexo de conhecimento dentro de um único modelo. Além disso, limitados por *priors* internos estáticos, esses modelos permanecem incapazes de se adaptar à dinâmica em evolução do mundo real. Para preencher essas lacunas, introduzimos o Mind-Brush, uma estrutura de agente unificada que transforma a geração em um fluxo de trabalho dinâmico e orientado pelo conhecimento. Simulando um paradigma humano de 'pensar-pesquisar-criar', o Mind-Brush recupera ativamente evidências multimodais para fundamentar conceitos fora de distribuição e emprega ferramentas de raciocínio para resolver restrições visuais implícitas. Para avaliar rigorosamente essas capacidades, propomos o Mind-Bench, um benchmark abrangente composto por 500 amostras distintas abrangendo notícias em tempo real, conceitos emergentes e domínios como Raciocínio Matemático e Geo-Raciocínio. Experimentos extensivos demonstram que o Mind-Brush melhora significativamente as capacidades dos modelos unificados, realizando um salto de capacidade de zero para um para a linha de base Qwen-Image no Mind-Bench, enquanto alcança resultados superiores em benchmarks estabelecidos como WISE e RISE.
Os crescentes esforços para melhorar a distillação de conhecimento (KD) em grandes modelos de linguagem (LLMs) estão substituindo a supervisão densa do professor por uma distillação seletiva, que utiliza um subconjunto de posições de tokens, classes de vocabulário ou amostras de treinamento para supervisão. No entanto, ainda não está claro quais sinais de importância, políticas de seleção e sua interação são mais eficazes. Neste trabalho, revisitamos onde e como realizar a distillação em LLMs autoregressivos. Desacoplamos a KD seletiva ao longo dos eixos de posição, classe e amostra e comparamos sistematicamente sinais de importância e políticas de seleção. Em seguida, guiados por esta análise, identificamos oportunidades pouco exploradas e introduzimos a seleção de posição guiada pela entropia do estudante (SE-KD). Em uma série de benchmarks, a SE-KD frequentemente melhora a precisão, a aderência a tarefas downstream e a eficiência de memória em comparação com a distillação densa. A extensão desta abordagem através dos eixos de classe e amostra (SE-KD 3X) produz ganhos de eficiência complementares que tornam viável o cache offline do professor. Na prática, isso reduz o tempo de execução em 70% e a memória de pico em 18%, enquanto diminui o uso de armazenamento em 80% em relação aos métodos anteriores, sem sacrificar o desempenho.
Os agentes de pesquisa profunda baseados em LLM são amplamente construídos sobre a estrutura ReAct. Este design linear dificulta a revisitação de estados anteriores, a ramificação em direções de pesquisa alternativas ou a manutenção da consciência global em contextos longos, frequentemente levando a ótimos locais, exploração redundante e busca ineficiente. Propomos o Re-TRAC, uma estrutura agentiva que realiza exploração transversal de trajetórias gerando uma representação estruturada de estado após cada trajetória para sumarizar evidências, incertezas, falhas e planos futuros, e condicionando trajetórias subsequentes a esta representação de estado. Isso permite reflexão iterativa e planejamento globalmente informado, reenquadrando a pesquisa como um processo progressivo. Resultados empíricos mostram que o Re-TRAC supera consistentemente o ReAct em 15-20% no BrowseComp com LLMs de ponta. Para modelos menores, introduzimos o ajuste fino supervisionado consciente do Re-TRAC, alcançando desempenho state-of-the-art em escalas comparáveis. Notavelmente, o Re-TRAC mostra uma redução monotônica nas chamadas de ferramentas e no uso de tokens ao longo das rodadas, indicando exploração progressivamente direcionada conduzida pela reflexão transversal de trajetórias em vez de busca redundante.
Apresentamos o FSVideo, um framework de difusão imagem-para-vídeo (I2V) baseado em transformers de alta velocidade. Construímos nosso framework sobre os seguintes componentes-chave: 1.) um novo autoencoder de vídeo com espaço latente altamente comprimido (razão de subamostragem espaço-temporal de 64x64x4), alcançando qualidade de reconstrução competitiva; 2.) uma arquitetura de transformer de difusão (DIT) com um novo design de memória em camadas para melhorar o fluxo de informação entre camadas e a reutilização de contexto dentro do DIT, e 3.) uma estratégia de geração multi-resolução via um upsampler DIT de poucos passos para aumentar a fidelidade do vídeo. Nosso modelo final, que contém um modelo base DIT de 14B e um upsampler DIT de 14B, alcança desempenho competitivo em comparação com outros modelos de código aberto populares, sendo uma ordem de magnitude mais rápido. Discutimos o design do nosso modelo, bem como as estratégias de treinamento, neste relatório.
O sistema financeiro japonês combina uma estrutura linguística aglutinante e de núcleo final, sistemas de escrita mistos e normas de comunicação de alto contexto que dependem de expressão indireta e compromisso implícito, representando um desafio substancial para LLMs. Apresentamos Ebisu, um benchmark para a compreensão da linguagem financeira nativa japonesa, composto por duas tarefas fundamentadas linguística e culturalmente e anotadas por especialistas: JF-ICR, que avalia o reconhecimento de compromisso implícito e recusa em Q&As voltados a investidores, e JF-TE, que avalia a extração hierárquica e classificação de terminologia financeira aninhada em divulgações profissionais. Avaliamos um conjunto diversificado de LLMs de código aberto e proprietários, abrangendo modelos de uso geral, adaptados ao japonês e financeiros. Os resultados mostram que mesmo sistemas state-of-the-art apresentam dificuldades em ambas as tarefas. Embora o aumento da escala do modelo produza melhorias limitadas, a adaptação específica de idioma e domínio não melhora o desempenho de forma confiável, deixando lacunas substanciais não resolvidas. Ebisu fornece um benchmark focado para avançar o PLN financeiro fundamentado linguística e culturalmente. Todos os conjuntos de dados e scripts de avaliação são disponibilizados publicamente.
Uma metáfora visual constitui uma forma de alta ordem da criatividade humana, empregando fusão semântica interdomínios para transformar conceitos abstratos em retórica visual impactante. Apesar dos notáveis avanços da IA generativa, os modelos existentes permanecem amplamente confinados ao alinhamento de instruções em nível de pixel e à preservação de aparência superficial, falhando em capturar a lógica abstrata subjacente necessária para uma geração metafórica genuína. Para preencher essa lacuna, introduzimos a tarefa de Transferência de Metáfora Visual (VMT), que desafia os modelos a desacoplar autonomamente a "essência criativa" de uma imagem de referência e rematerializar essa lógica abstrata em um assunto-alvo especificado pelo usuário. Propomos uma estrutura multiagente de inspiração cognitiva que operacionaliza a Teoria da Integração Conceptual (CBT) por meio de uma nova Gramática de Esquema ("G"). Esta representação estruturada desacopla invariantes relacionais de entidades visuais específicas, fornecendo uma base rigorosa para a reinstanciação de lógica interdomínios. Nossa pipeline executa a VMT por meio de um sistema colaborativo de agentes especializados: um agente de percepção que destila a referência em um esquema, um agente de transferência que mantém a invariância do espaço genérico para descobrir portadores aptos, um agente de geração para síntese de alta fidelidade e um agente de diagnóstico hierárquico que imita um crítico profissional, realizando retrocesso em circuito fechado para identificar e retificar erros em lógica abstrata, seleção de componentes e codificação de instruções. Experimentos extensivos e avaliações humanas demonstram que nosso método supera significativamente as linhas de base do estado da arte em consistência metafórica, adequação da analogia e criatividade visual, abrindo caminho para aplicações criativas automatizadas de alto impacto em publicidade e mídia. O código-fonte será disponibilizado publicamente.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) alcançaram sucesso notável em tarefas perceptivas de vocabulário aberto, mas sua capacidade de resolver problemas cognitivos complexos permanece limitada, especialmente quando os detalhes visuais são abstratos e exigem memória visual. As abordagens atuais priorizam principalmente a escalonamento do raciocínio em cadeia (Chain-of-Thought, CoT) no espaço textual, mesmo quando a linguagem por si só é insuficiente para um raciocínio claro e estruturado, e negligenciam em grande parte mecanismos de raciocínio visual análogos à *sketchpad* visuoespacial e à imagética visual humana. Para mitigar esta deficiência, introduzimos a Superssensação Cognitiva, um novo paradigma de treinamento que confere aos MLLMs capacidades de imagética visual semelhantes às humanas, integrando um módulo de Predição de Imagética Visual Latente (LVIP) que aprende conjuntamente sequências de *embeddings* latentes visuais cognitivos e os alinha com a resposta, formando assim cadeias de raciocínio internas baseadas na visão. Introduzimos ainda uma fase de aprendizagem por reforço que otimiza os caminhos de raciocínio textual com base neste latente visual fundamentado. Para avaliar as capacidades cognitivas dos MLLMs, apresentamos o CogSense-Bench, um benchmark abrangente de resposta a perguntas visuais (VQA) que avalia cinco dimensões cognitivas. Experimentos extensivos demonstram que os MLLMs treinados com Superssensação Cognitiva superam significativamente os *baselines* state-of-the-art no CogSense-Bench e exibem generalização superior em *benchmarks* VQA de matemática e ciências fora do domínio, sugerindo que a imagética visual interna é potencialmente a chave para preencher a lacuna entre o reconhecimento perceptivo e a compreensão cognitiva. Disponibilizaremos publicamente o CogSense-Bench e os pesos do nosso modelo.
Os modelos generativos recentes alcançaram progressos notáveis na edição de imagens. No entanto, os sistemas e benchmarks existentes permanecem amplamente orientados por texto. Em contraste, a comunicação humana é inerentemente multimodal, onde instruções visuais, como esboços, transmitem eficientemente intenções espaciais e estruturais. Para abordar essa lacuna, apresentamos o VIBE, o *Visual Instruction Benchmark for Image Editing* (Benchmark de Instrução Visual para Edição de Imagens), com uma hierarquia de interação de três níveis que captura a fundamentação dêitica, a manipulação morfológica e o raciocínio causal. Através desses níveis, selecionamos casos de teste diversos e de alta qualidade que refletem uma complexidade progressivamente crescente no seguimento de instruções visuais. Propomos ainda um robusto framework de avaliação *LMM-as-a-judge* (Modelo de Linguagem como Juiz) com métricas específicas para a tarefa, permitindo uma avaliação escalável e de granularidade fina. Por meio de uma avaliação abrangente de 17 modelos representativos de edição de imagens, de código aberto e proprietários, descobrimos que os modelos proprietários exibem capacidades iniciais de seguimento de instruções visuais e superam consistentemente os modelos de código aberto. No entanto, o desempenho degrada-se acentuadamente com o aumento da dificuldade da tarefa, mesmo para os sistemas mais fortes, destacando direções promissoras para pesquisas futuras.
A geração de avatares falantes é uma tarefa fundamental na geração de vídeo. Embora os métodos existentes possam gerar avatares falantes de corpo inteiro com movimento humano simples, estender esta tarefa para a interação humano-objeto fundamentada (GHOI) permanece um desafio em aberto, exigindo que o avatar execute interações alinhadas com texto com objetos ao redor. Este desafio decorre da necessidade de perceção ambiental e do dilema controlo-qualidade na geração de GHOI. Para resolver isto, propomos uma nova estrutura de fluxo duplo, InteractAvatar, que desacopla a perceção e o planeamento da síntese de vídeo para interação humano-objeto fundamentada. Aproveitando a deteção para melhorar a perceção ambiental, introduzimos um Módulo de Perceção e Interação (PIM) para gerar movimentos de interação alinhados com texto. Adicionalmente, é proposto um Módulo de Geração Consciente de Áudio-Interação (AIM) para sintetizar avatares falantes vívidos que realizam interações com objetos. Com um alinhador movimento-para-vídeo especialmente concebido, o PIM e o AIM partilham uma estrutura de rede semelhante e permitem a co-geração paralela de movimentos e vídeos plausíveis, mitigando eficazmente o dilema controlo-qualidade. Finalmente, estabelecemos um benchmark, GroundedInter, para avaliar a geração de vídeos GHOI. Experiências extensivas e comparações demonstram a eficácia do nosso método na geração de interações humano-objeto fundamentadas para avatares falantes. Página do projeto: https://interactavatar.github.io
Os modelos de recompensa padrão geralmente preveem pontuações escalares que não conseguem capturar a natureza multifacetada da qualidade da resposta em domínios não verificáveis, como a escrita criativa ou o seguimento de instruções de resposta aberta. Para superar essa limitação, propomos o Rubric-ARM, uma estrutura que otimiza conjuntamente um gerador de rubricas e um avaliador usando aprendizagem por reforço a partir de *feedback* de preferência. Diferente de métodos existentes que dependem de rubricas estáticas ou *pipelines* de treinamento desconectados, nossa abordagem trata a geração de rubricas como uma ação latente aprendida para maximizar a precisão do julgamento. Introduzimos uma estratégia de otimização alternada para mitigar a não estacionariedade das atualizações simultâneas, fornecendo uma análise teórica que demonstra como esse esquema reduz a variância do gradiente durante o treinamento. Experimentos extensivos mostram que o Rubric-ARM alcança desempenho de ponta entre as *baselines* em múltiplos *benchmarks* e melhora significativamente o alinhamento da política subsequente em configurações de aprendizagem por reforço offline e online.
Os Agentes de Utilização de Computadores (CUAs) visam operar sistemas informáticos de forma autónoma para completar tarefas do mundo real. No entanto, os sistemas agentes existentes continuam difíceis de dimensionar e ficam aquém do desempenho humano. Uma limitação fundamental é a ausência de abstrações de habilidades reutilizáveis e estruturadas que capturem a forma como os humanos interagem com interfaces gráficas e como alavancar essas habilidades. Apresentamos o CUA-Skill, uma base de habilidades para agentes de utilização de computadores que codifica o conhecimento humano de uso do computador como habilidades, associadas a grafos de execução parametrizada e de composição. O CUA-Skill é uma biblioteca em larga escala de habilidades cuidadosamente elaboradas que abrangem aplicações comuns do Windows, servindo como uma infraestrutura prática e um substrato de ferramentas para o desenvolvimento de agentes escaláveis e fiáveis. Com base nesta base de habilidades, construímos o Agente CUA-Skill, um agente de utilização de computadores de ponta a ponta que suporta a recuperação dinâmica de habilidades, a instanciação de argumentos e a recuperação de falhas com consciência de memória. Os nossos resultados demonstram que o CUA-Skill melhora substancialmente as taxas de sucesso de execução e a robustez em benchmarks de agentes de ponta a ponta desafiadores, estabelecendo uma base sólida para o futuro desenvolvimento de agentes de utilização de computadores. No WindowsAgentArena, o Agente CUA-Skill alcança um estado da arte de 57,5% (melhor de três) de taxa de sucesso, sendo significativamente mais eficiente do que abordagens anteriores e concorrentes. A página do projeto está disponível em https://microsoft.github.io/cua_skill/.
Métodos para controlar grandes modelos de linguagem (LLMs), incluindo o ajuste fino de pesos locais, a adaptação baseada em LoRA e as intervenções baseadas em ativação, são frequentemente estudados de forma isolada, obscurecendo suas conexões e dificultando a comparação. Neste trabalho, apresentamos uma visão unificada que enquadra essas intervenções como atualizações dinâmicas de pesos induzidas por um sinal de controle, colocando-as dentro de uma única estrutura conceitual. Com base nessa visão, propomos uma análise unificada de preferência-utilidade que separa os efeitos de controle em **preferência**, definida como a tendência em direção a um conceito-alvo, e **utilidade**, definida como geração coerente e válida para a tarefa, e mede ambas em uma escala compartilhada de *log-odds* usando exemplos contrastivos de polaridade oposta. Entre os métodos, observamos uma compensação consistente entre preferência e utilidade: um controle mais forte aumenta a preferência, ao mesmo tempo que reduz previsivelmente a utilidade. Explicamos ainda esse comportamento através de uma perspectiva do manifold de ativação, na qual o controle desloca as representações ao longo de direções do conceito-alvo para melhorar a preferência, enquanto a utilidade diminui principalmente quando as intervenções empurram as representações para fora do manifold de geração válida do modelo. Por fim, introduzimos uma nova abordagem de direcionamento chamada SPLIT, guiada por esta análise, que melhora a preferência enquanto preserva melhor a utilidade. O código está disponível em https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.
Neste artigo, identificamos um subsistema de recompensa esparsa nos estados ocultos de Modelos de Linguagem de Grande Porte (LLMs), estabelecendo uma analogia com o subsistema de recompensa biológico no cérebro humano. Demonstramos que este subsistema contém neurônios de valor que representam a expectativa interna do modelo em relação ao valor do estado, e através de experimentos de intervenção, comprovamos a importância desses neurônios para o raciocínio. Nossos experimentos revelam que esses neurônios de valor são robustos em diversos conjuntos de dados, escalas de modelo e arquiteturas; além disso, eles exibem significativa transferibilidade entre diferentes conjuntos de dados e modelos refinados a partir do mesmo modelo base. Ao examinar casos em que as previsões de valor e as recompensas reais divergem, identificamos neurônios de dopamina dentro do subsistema de recompensa que codificam erros de previsão de recompensa (RPE). Esses neurônios exibem alta ativação quando a recompensa é maior do que o esperado e baixa ativação quando a recompensa é menor do que o esperado.
Os recentes avanços no raciocínio visual têm aproveitado os transformadores de visão (vision transformers) para abordar o benchmark ARC-AGI. No entanto, argumentamos que a arquitetura *feed-forward*, na qual a profundidade computacional está estritamente vinculada ao tamanho dos parâmetros, é insuficiente para capturar a natureza iterativa e algorítmica da indução humana. Neste trabalho, propomos uma arquitetura recursiva denominada Loop-ViT, que desacopla a profundidade do raciocínio da capacidade do modelo através de recorrência com pesos compartilhados. O Loop-ViT itera um Bloco Híbrido com pesos compartilhados, combinando convoluções locais e atenção global, para formar uma cadeia latente de pensamento. Crucialmente, introduzimos um mecanismo de Saída Dinâmica (*Dynamic Exit*) sem parâmetros, baseado na entropia preditiva: o modelo interrompe a inferência quando seu estado interno "cristaliza" em um atrator de baixa incerteza. Resultados empíricos no benchmark ARC-AGI-1 validam esta perspetiva: o nosso modelo de 18M parâmetros atinge uma precisão de 65,8%, superando *ensembles* massivos de 73M parâmetros. Estes resultados demonstram que a computação iterativa adaptativa oferece um eixo de escalabilidade muito mais eficiente para o raciocínio visual do que simplesmente aumentar a largura da rede. O código está disponível em https://github.com/WenjieShu/LoopViT.
Os grandes modelos de linguagem (LLMs) demonstraram fortes capacidades de raciocínio através da abordagem sequencial de raciocínio em cadeia de pensamento (CoT). No entanto, nos limites da capacidade do modelo, o CoT frequentemente se mostra insuficiente, e sua natureza estritamente sequencial restringe a escalabilidade em tempo de teste. Uma alternativa potencial é o raciocínio de divisão e conquista (DAC), que decompõe um problema complexo em subproblemas para facilitar uma exploração mais eficaz da solução. Embora promissora, nossa análise revela um desalinhamento fundamental entre o pós-treinamento de propósito geral e a inferência no estilo DAC, o que limita a capacidade do modelo de aproveitar todo este potencial. Para preencher essa lacuna e desbloquear completamente as capacidades de raciocínio dos LLMs nas tarefas mais desafiadoras, propomos uma estrutura de aprendizagem por reforço (RL) de ponta a ponta para aprimorar sua capacidade de raciocínio no estilo DAC. A cada etapa, a política decompõe um problema em um grupo de subproblemas, resolve-os sequencialmente e aborda o problema original condicionado às soluções dos subproblemas, integrando tanto a decomposição quanto a solução no treinamento de RL. Sob treinamento comparável, nossa estrutura no estilo DAC confere ao modelo um limite de desempenho mais alto e uma escalabilidade em tempo de teste mais forte, superando o CoT em 8,6% em Pass@1 e 6,3% em Pass@32 em benchmarks de nível competitivo.
A geração de texto para imagem (T2I) alcançou progressos notáveis, porém os métodos existentes frequentemente carecem da capacidade de raciocinar e refinar dinamicamente durante a geração – uma característica marcante da criatividade humana. Os paradigmas atuais aumentados por raciocínio dependem principalmente de processos de pensamento explícitos, nos quais o raciocínio intermediário é decodificado em texto discreto em etapas fixas, com frequente decodificação e recodificação de imagens, resultando em ineficiências, perda de informação e incompatibilidades cognitivas. Para preencher esta lacuna, introduzimos o LatentMorph, uma nova estrutura que integra perfeitamente o raciocínio latente implícito no processo de geração T2I. No seu cerne, o LatentMorph introduz quatro componentes leves: (i) um condensador para resumir estados intermediários de geração em memória visual compacta, (ii) um tradutor para converter pensamentos latentes em orientação acionável, (iii) um modelador para direcionar dinamicamente as próximas previsões de tokens de imagem, e (iv) um invocador treinado por RL para determinar adaptativamente quando invocar o raciocínio. Ao realizar o raciocínio inteiramente em espaços latentes contínuos, o LatentMorph evita os gargalos do raciocínio explícito e permite uma autorrefinação mais adaptativa. Experimentos extensivos demonstram que o LatentMorph (I) melhora o modelo base Janus-Pro em 16% no GenEval e 25% no T2I-CompBench; (II) supera paradigmas explícitos (por exemplo, TwiG) em 15% e 11% em tarefas de raciocínio abstrato como WISE e IPV-Txt, (III) enquanto reduz o tempo de inferência em 44% e o consumo de tokens em 51%; e (IV) exibe 71% de alinhamento cognitivo com a intuição humana sobre a invocação do raciocínio.
A capacidade dos agentes de IA para lidar eficazmente com tarefas de duração e complexidade crescentes continua a aumentar, demonstrando um desempenho excecional em avaliações de codificação, pesquisa aprofundada e resolução complexa de problemas. No entanto, em cenários do dia a dia, a perceção destas capacidades avançadas de IA entre os utilizadores em geral permanece limitada. Argumentamos que as avaliações atuais priorizam o aumento da dificuldade das tarefas sem abordar suficientemente a diversidade de tarefas agentivas necessárias para abranger as atividades diárias de trabalho, vida e aprendizagem de um amplo demográfico. Para resolver esta lacuna, propomos o AgentIF-OneDay, que visa determinar se os utilizadores em geral podem utilizar instruções em linguagem natural e agentes de IA para completar uma diversificada gama de tarefas diárias. Estas tarefas exigem não apenas resolver problemas através de diálogo, mas também compreender vários tipos de anexos e entregar resultados tangíveis baseados em ficheiros. O benchmark está estruturado em torno de três categorias centradas no utilizador: Execução de Fluxo de Trabalho Aberto, que avalia a adesão a fluxos de trabalho explícitos e complexos; Instrução Latente, que requer que os agentes infiram instruções implícitas a partir de anexos; e Refinamento Iterativo, que envolve modificar ou expandir trabalhos em curso. Empregamos rubricas a nível de instância e um pipeline de avaliação refinado que alinha a verificação baseada em LLM com o julgamento humano, alcançando uma taxa de concordância de 80,1% com o Gemini-3-Pro. O AgentIF-OneDay compreende 104 tarefas que abrangem 767 pontos de avaliação. Avaliámos quatro dos principais agentes de IA de uso geral e descobrimos que os produtos agentes construídos com base em APIs e os agentes ChatGPT baseados em RL (aprendizagem por reforço) de agentes permanecem simultaneamente no primeiro escalão. As principais APIs de LLM e os modelos de código aberto internalizaram capacidades agentivas, permitindo que equipas de aplicações de IA desenvolvam produtos Agentes de ponta.
À medida que os agentes baseados em LLM são implantados em cenários do mundo real cada vez mais complexos, os benchmarks existentes sub-representam desafios fundamentais, como a aplicação de restrições globais, a coordenação de raciocínio com múltiplas ferramentas e a adaptação a comportamentos do usuário em evolução ao longo de interações longas e multiturno. Para preencher essa lacuna, apresentamos o TRIP-Bench, um benchmark de longo prazo baseado em cenários realistas de planejamento de viagens. O TRIP-Bench utiliza dados do mundo real, oferece 18 ferramentas curadas e mais de 40 requisitos de viagem, e suporta avaliação automatizada. Inclui divisões de dificuldade variável; a divisão difícil enfatiza interações longas e ambíguas, mudanças de estilo, alterações de viabilidade e revisão iterativa de versões. Os diálogos abrangem até 15 turnos do usuário, podem envolver mais de 150 chamadas de ferramentas e podem exceder 200 mil tokens de contexto. Experimentos mostram que mesmo modelos avançados atingem no máximo 50% de sucesso na divisão fácil, com o desempenho caindo abaixo de 10% em subconjuntos difíceis. Propomos ainda o GTPO, um método de aprendizado por reforço multiturno online com normalização de recompensa especializada e diferenciação de recompensa. Aplicado ao Qwen2.5-32B-Instruct, o GTPO melhora a satisfação de restrições e a robustez da interação, superando o Gemini-3-Pro em nossa avaliação. Esperamos que o TRIP-Bench avance o desenvolvimento de agentes interativos práticos de longo prazo, e que o GTPO forneça uma receita eficaz de RL online para treinamento robusto em horizontes longos.
Os modelos de fluxo (Flow Matching - FMs) revolucionaram a geração de texto para imagem (T2I), com o aprendizado por reforço (RL) servindo como uma estratégia crítica de pós-treinamento para alinhamento com objetivos de recompensa. Nesta pesquisa, mostramos que os *pipelines* atuais de RL para FMs sofrem de duas limitações importantes, porém subestimadas: ineficiência na amostragem devido à diversidade de geração insuficiente e *overfitting* acentuado a *prompts*, onde os modelos memorizam formulações específicas de treinamento e exibem um colapso drástico de desempenho quando avaliados em *prompts* semanticamente equivalentes, mas com variações estilísticas. Apresentamos o PromptRL (*Prompt Matters in RL for Flow-Based Image Generation*), um *framework* que incorpora modelos de linguagem (LMs) como agentes de refinamento de *prompt* treináveis diretamente dentro do ciclo de otimização de RL baseado em fluxo. Este projeto gera dois benefícios complementares: o desenvolvimento rápido de capacidades sofisticadas de reescrita de *prompts* e, criticamente, um regime de treinamento sinérgico que remodela a dinâmica de otimização. O PromptRL alcança desempenho de última geração em vários *benchmarks*, obtendo pontuações de 0,97 no GenEval, 0,98 na precisão de OCR e 24,05 no PickScore. Além disso, validamos a eficácia da nossa abordagem de RL em modelos de edição de imagem em larga escala, melhorando o EditReward do FLUX.1-Kontext de 1,19 para 1,43 com apenas 0,06 milhões de *rollouts*, superando o Gemini 2.5 Flash Image (também conhecido como Nano Banana), que marca 1,37, e alcançando desempenho comparável ao ReasonNet (1,44), que dependeu de anotações de dados refinadas juntamente com um treinamento complexo em múltiplos estágios. Nossos extensos experimentos demonstram empiricamente que o PromptRL alcança consistentemente tetos de desempenho mais altos, exigindo mais de 2 vezes menos *rollouts* em comparação com o RL ingênuo baseado apenas em fluxo. Nosso código está disponível em https://github.com/G-U-N/UniRL.
Os autoencoders esparsos (SAEs) emergiram como um método promissor para interpretar representações de redes neurais, decompondo ativações em combinações esparsas de átomos de dicionário. No entanto, os SAEs assumem que as características se combinam aditivamente por meio de reconstrução linear, uma suposição que não consegue capturar estrutura composicional: modelos lineares não podem distinguir se "Starbucks" surge da composição das características "star" e "coffee" ou meramente da sua co-ocorrência. Isso força os SAEs a alocar características monolíticas para conceitos compostos, em vez de decompô-los em constituintes interpretáveis. Apresentamos o PolySAE, que estende o decodificador do SAE com termos de ordem superior para modelar interações entre características, preservando o codificador linear essencial para a interpretabilidade. Através da fatoração tensorial de baixo posto em um subespaço de projeção compartilhado, o PolySAE captura interações pareadas e triplas entre características com uma pequena sobrecarga paramétrica (3% no GPT2). Em quatro modelos de linguagem e três variantes de SAE, o PolySAE alcança uma melhoria média de aproximadamente 8% no F1 de *probing*, mantendo um erro de reconstrução comparável, e produz distâncias de Wasserstein 2 a 10 vezes maiores entre distribuições de características condicionadas à classe. Criticamente, os pesos de interação aprendidos exibem correlação negligenciável com a frequência de co-ocorrência (r = 0,06 versus r = 0,82 para a covariância de características do SAE), sugerindo que os termos polinomiais capturam estrutura composicional, como ligação morfológica e composição frasal, largamente independente de estatísticas superficiais.
Os Grandes Modelos de Raciocínio (LRMs) beneficiam-se substancialmente do treinamento com questões desafiadoras de nível competitivo. No entanto, os métodos existentes de síntese automática de questões carecem de controlo preciso de dificuldade, incorrem em elevados custos computacionais e lutam para gerar questões de nível competitivo em escala. Neste artigo, propomos o CoDiQ (Geração de Questões Difíceis Controlável), uma nova estrutura que permite um controlo de dificuldade de granularidade fina através de escalonamento em tempo de teste, garantindo ao mesmo tempo a resolubilidade das questões. Especificamente, primeiro, identificamos uma tendência de escalonamento em tempo de teste (o aumento do orçamento de *tokens* de raciocínio aumenta a dificuldade, mas reduz a resolubilidade) e as propriedades intrínsecas que definem o limite superior da capacidade de um modelo para gerar questões válidas e de alta dificuldade. Em seguida, desenvolvemos o CoDiQ-Generator a partir do Qwen3-8B, que melhora o limite superior da geração de questões difíceis, tornando-o particularmente adequado para a construção de questões desafiadoras. Com base na estrutura CoDiQ, construímos o CoDiQ-Corpus (44 mil sequências de questões de nível competitivo). Avaliações humanas mostram que estas questões são significativamente mais desafiadoras do que as do LiveCodeBench/AIME, mantendo mais de 82% de resolubilidade. O treino de LRMs no CoDiQ-Corpus melhora substancialmente o desempenho do raciocínio, verificando que a escalabilidade de questões de treino com dificuldade controlada aumenta as capacidades de raciocínio. Disponibilizamos em código aberto o CoDiQ-Corpus, o CoDiQ-Generator e as implementações para apoiar a investigação relacionada.
A implantação de modelos modernos de linguagem de fala (SpeechLMs) em ambientes de *streaming* exige sistemas que ofereçam baixa latência, alta taxa de transferência e fortes garantias de capacidade de transmissão em fluxo contínuo. Os sistemas existentes não conseguem suportar modelos diversos de forma flexível e eficiente. Apresentamos o VoxServe, um sistema unificado de serviço para SpeechLMs que otimiza o desempenho em *streaming*. O VoxServe introduz uma abstração de execução de modelos que desacopla a arquitetura do modelo das otimizações em nível de sistema, permitindo assim o suporte a diversas arquiteturas de SpeechLM dentro de uma única estrutura. Com base nesta abstração, o VoxServe implementa um agendamento consciente do *streaming* e um pipeline de inferência assíncrona para melhorar a eficiência de ponta a ponta. Avaliações em vários SpeechLMs modernos mostram que o VoxServe alcança uma taxa de transferência 10 a 20 vezes maior do que as implementações existentes, com latência comparável, mantendo alta viabilidade de transmissão em fluxo. O código do VoxServe está disponível em https://github.com/vox-serve/vox-serve.
A separação universal de sons baseada em consultas é fundamental para sistemas auditivos inteligentes, visando isolar fontes específicas de misturas. Apesar dos avanços recentes, os métodos existentes continuam a sofrer com interferência residual em cenas acústicas complexas. Esta limitação de desempenho decorre largamente de um gargalo de dados: os conjuntos de dados do mundo real contêm rótulos fracos e uma co-ocorrência severa de eventos. Estas falhas induzem os modelos a aprender correlações espúrias entre ruído de fundo e categorias-alvo, em vez de características acústicas robustas. Para resolver isto, propomos um pipeline automatizado que elimina a co-ocorrência de eventos através da mineração de segmentos de evento único de alta pureza a partir de conjuntos de dados do mundo real, via um protocolo de síntese semanticamente consistente. Utilizando este pipeline, construímos o Hive, um conjunto de dados sintético de alta qualidade compreendendo 2,4 mil horas de áudio bruto. Resultados experimentais demonstram que, comparado com o modelo state-of-the-art SAM-Audio, que foi treinado num conjunto de dados enorme aproximadamente 500 vezes maior que o Hive, certos modelos de código aberto treinados no Hive alcançam precisão de separação e qualidade perceptual competitivas. Além disso, estes modelos exibiram uma generalização zero-shot notável em benchmarks de avaliação fora da distribuição. Estas descobertas destacam que priorizar a pureza dos sinais supervisionados permite uma significativa eficiência de dados, oferecendo um novo paradigma para treinar modelos de base auditivos robustos com custos computacionais reduzidos. O código e o conjunto de dados estão disponíveis em https://shandaai.github.io/Hive.
Os modelos de linguagem multimodal de grande escala (MLLMs) enfrentam custos computacionais elevados devido ao excesso de tokens visuais, particularmente em cenários de alta resolução e baseados em vídeo. Os métodos de redução de tokens existentes geralmente concentram-se em componentes isolados do pipeline e frequentemente negligenciam o alinhamento textual, resultando em degradação de desempenho. Neste artigo, propomos o VisionTrim, um framework unificado para aceleração de MLLMs sem necessidade de treinamento, integrando dois módulos eficazes de plug-and-play: 1) o módulo de Seleção de Tokens Visuais Dominantes (DVTS), que preserva tokens visuais essenciais através de uma visão global-local, e 2) o módulo de Complemento Visual Guiado por Texto (TGVC), que facilita a fusão de tokens consciente do contexto orientada por pistas textuais. Experimentos extensos em diversos benchmarks multimodais de imagem e vídeo demonstram a superioridade de desempenho do nosso VisionTrim, avançando a implantação prática de MLLMs em aplicações do mundo real. O código está disponível em: https://github.com/hanxunyu/VisionTrim.
Os modelos de mundo aprendem uma representação interna da dinâmica do ambiente, permitindo que os agentes simulem e raciocinem sobre estados futuros dentro de um espaço latente compacto para tarefas como planejamento, previsão e inferência. No entanto, a execução de modelos de mundo depende de um custo computacional e consumo de memória elevados, tornando a quantização do modelo essencial para uma implantação eficiente. Até o momento, os efeitos da quantização pós-treinamento (PTQ) em modelos de mundo permanecem amplamente não examinados. Neste trabalho, apresentamos um estudo empírico sistemático da quantização de modelos de mundo usando o DINO-WM como caso representativo, avaliando diversos métodos de PTQ em configurações de apenas pesos e de pesos-ativação conjuntos. Realizamos extensivos experimentos em diferentes tarefas de planejamento visual em uma ampla gama de bit-widths, granularidades de quantização e horizontes de planejamento de até 50 iterações. Nossos resultados mostram que os efeitos da quantização em modelos de mundo vão além dos trade-offs padrão de precisão e bit-width: a quantização de pesos por grupo pode estabilizar rollouts de baixo bit, a granularidade da quantização de ativação produz benefícios inconsistentes, e a sensibilidade à quantização é altamente assimétrica entre os módulos do codificador e do preditor. Além disso, a quantização agressiva de baixo bit degrada significativamente o alinhamento entre o objetivo de planejamento e o sucesso da tarefa, levando a falhas que não podem ser remediadas por otimização adicional. Essas descobertas revelam modos de falha distintos induzidos por quantização no planejamento baseado em modelos de mundo e fornecem orientação prática para implantar modelos de mundo quantizados sob restrições computacionais rigorosas. O código estará disponível em https://github.com/huawei-noah/noah-research/tree/master/QuantWM.
Os grandes modelos de linguagem (LLMs) são amplamente utilizados como avaliadores sem referência por meio de *prompting*, mas este paradigma de "LLM-como-juiz" é dispendioso, opaco e sensível ao design do *prompt*. Neste trabalho, investigamos se modelos menores podem servir como avaliadores eficientes, aproveitando representações internas em vez de geração superficial. Descobrimos um padrão empírico consistente: pequenos modelos de linguagem, apesar de possuírem capacidade gerativa fraca, codificam sinais avaliativos ricos em seus estados ocultos. Isso nos motiva a propor a Hipótese da Assimetria de Capacidade Semântica: a avaliação requer significativamente menos capacidade semântica do que a geração e pode ser fundamentada em representações intermediárias, sugerindo que a avaliação não precisa necessariamente depender de modelos generativos de grande escala, mas pode, em vez disso, alavancar características latentes de modelos menores. Nossas descobertas motivam uma mudança de paradigma de LLM-como-juiz para Representação-como-juiz, uma estratégia de avaliação livre de decodificação que investiga a estrutura interna do modelo em vez de depender da saída solicitada por *prompt*. Instanciamos este paradigma por meio do INSPECTOR, uma estrutura baseada em *probing* que prevê pontuações de avaliação em nível de aspecto a partir de representações de modelos pequenos. Experimentos em benchmarks de raciocínio (GSM8K, MATH, GPQA) mostram que o INSPECTOR supera substancialmente pequenos LLMs baseados em *prompting* e aproxima-se estreitamente dos juízes LLM completos, ao mesmo tempo que oferece uma alternativa mais eficiente, confiável e interpretável para avaliação escalável.
A agência esperada de Modelos de Linguagem de Grande Porte Agênicos vai além de responder corretamente, exigindo autonomia para definir objetivos e decidir o que explorar. Denominamos isso de inteligência investigatória, distinguindo-a da inteligência executiva, que apenas completa tarefas atribuídas. A Ciência de Dados oferece um campo de testes natural, uma vez que a análise do mundo real parte de dados brutos em vez de consultas explícitas, mas poucos *benchmarks* se concentram nisso. Para resolver isso, apresentamos a Deep Data Research (DDR), uma tarefa de final aberto onde os LLMs extraem autonomamente *insights* principais de bancos de dados, e o DDR-Bench, um *benchmark* em larga escala baseado em lista de verificação que permite uma avaliação verificável. Os resultados mostram que, embora os modelos de fronteira exibam uma agência emergente, a exploração de longo horizonte permanece desafiadora. Nossa análise destaca que uma inteligência investigatória eficaz depende não apenas de estruturas de agentes ou do mero escalonamento, mas também de estratégias intrínsecas de modelos agênicos.
Os Grandes Modelos de Visão e Linguagem (LVLMs) demonstram forte desempenho em tarefas de imagem única, mas o seu desempenho diminui quando múltiplas imagens são fornecidas como entrada. Uma das principais razões é o vazamento de informação entre imagens (*cross-image information leakage*), onde o modelo tem dificuldade em distinguir informações provenientes de diferentes imagens. Os LVLMs existentes já utilizam *tokens* delimitadores para marcar o início e o fim de cada imagem; no entanto, a nossa análise revela que estes *tokens* não conseguem bloquear eficazmente o vazamento de informação entre imagens. Para aumentar a sua eficácia, propomos um método que dimensiona os estados ocultos (*hidden states*) dos *tokens* delimitadores. Isto melhora a capacidade do modelo para preservar informação específica de cada imagem, reforçando a interação intra-imagem e limitando as interações indesejadas entre imagens. Consequentemente, o modelo consegue distinguir melhor entre as imagens e raciocinar sobre elas com maior precisão. Os resultados experimentais mostram ganhos de desempenho em *benchmarks* de múltiplas imagens, como o Mantis, MuirBench, MIRB e QBench2. Avaliámos ainda o nosso método em tarefas exclusivamente textuais que requerem uma distinção clara. O método melhora o desempenho em *benchmarks* de compreensão de múltiplos documentos e múltiplas tabelas, incluindo TQABench, MultiNews e WCEP-10. É de notar que o nosso método não requer custos adicionais de treino ou de inferência.
O aprendizado por reforço com recompensas verificáveis (RLVR) demonstrou grande potencial para aprimorar a capacidade de raciocínio de grandes modelos de linguagem (LLMs). No entanto, devido à quantidade limitada de informações fornecidas durante o processo de RLVR, o modelo só consegue realizar uma exploração majoritariamente cega, o que frequentemente resulta em falhas em problemas desafiadores. Para fornecer informações adicionais ao processo de RLVR sem depender de um modelo professor, propomos o A²D, um método de Decomposição Adaptativa de Habilidades para melhorar a eficácia do RLVR. Especificamente, primeiro treinamos um decompositor via RLVR sem destilação, permitindo que ele decomponha questões complexas em um conjunto de subquestões mais simples. Em seguida, usamos esse decompositor para anotar subquestões para cada questão no conjunto de dados de treinamento e, então, treinamos o raciocinador sob RLVR com orientação de subquestões. Para melhor compreender o A²D, primeiro comparamos seu desempenho com baselines competitivas, demonstrando sua eficácia. A seguir, observamos que nosso método funciona como um módulo plug-and-play que pode ser aplicado a diferentes algoritmos de RLVR. Adicionalmente, realizamos uma análise do decompositor, revelando como o processo de RLVR afeta seu desempenho e comportamento, e qual tipo de orientação é mais adequado para aprimorar as capacidades de exploração e explotação do raciocinador.
O mapeamento 3D de linhas a partir de imagens RGB multi-view fornece uma representação visual compacta e estruturada de cenas. Estudamos o problema a partir de uma perspectiva física e topológica: uma linha 3D surge mais naturalmente como a borda de um patch planar 3D finito. Apresentamos o LiP-Map, uma estrutura de otimização conjunta linha-plano que modela explicitamente primitivos de linhas e planos aprendíveis. Este acoplamento permite um mapeamento 3D de linhas preciso e detalhado, mantendo uma forte eficiência (normalmente completando uma reconstrução em 3 a 5 minutos por cena). O LiP-Map é pioneiro na integração da topologia planar no mapeamento 3D de linhas, não impondo restrições de coplanaridade aos pares, mas construindo explicitamente interações entre primitivos de planos e linhas, oferecendo assim um caminho fundamentado para a reconstrução estruturada em ambientes artificiais. Em mais de 100 cenas dos conjuntos ScanNetV2, ScanNet++, Hypersim, 7Scenes e Tanks\&Temple, o LiP-Map melhora tanto a precisão quanto a completude em relação aos métodos state-of-the-art. Além da qualidade do mapeamento de linhas, o LiP-Map avança significativamente a localização visual assistida por linhas, estabelecendo um desempenho robusto no 7Scenes. Nosso código está disponível em https://github.com/calmke/LiPMAP para pesquisa reproduzível.
Trabalhos recentes demonstraram que a poda de camadas pode comprimir grandes modelos de linguagem (LLMs) mantendo um desempenho sólido em benchmarks de classificação com pouca ou nenhuma afinação fina. No entanto, as técnicas de poda existentes frequentemente sofrem degradação severa em tarefas de raciocínio generativo. Através de um estudo sistemático em múltiplas famílias de modelos, descobrimos que tarefas que exigem raciocínio em múltiplas etapas são particularmente sensíveis à redução de profundidade. Para além da degeneração superficial do texto, observamos a degradação de capacidades algorítmicas críticas, incluindo computação aritmética para raciocínio matemático e geração de parênteses balanceados para síntese de código. Sob restrições realistas de pós-treinamento, sem acesso a dados ou poder computacional em escala de pré-treinamento, avaliamos uma estratégia simples de mitigação baseada em afinação fina supervisionada com Respostas Auto-Geradas. Esta abordagem alcança uma forte recuperação em tarefas de classificação, mantendo até 90% do desempenho da linha de base, e produz ganhos substanciais de até 20-30 pontos percentuais em benchmarks generativos em comparação com técnicas anteriores de pós-poda. Crucialmente, apesar destes ganhos, a recuperação para o raciocínio generativo permanece fundamentalmente limitada em relação a tarefas de classificação e é viável principalmente em taxas de poda mais baixas. No geral, caracterizamos os limites práticos da poda de camadas para raciocínio generativo e fornecemos orientações sobre quando a redução de profundidade pode ser aplicada eficazmente sob regimes de pós-treinamento restritos.
A destilação de conhecimento oferece um caminho promissor para transferir capacidades de raciocínio de grandes modelos professores para modelos estudantes eficientes; no entanto, os métodos existentes de destilação *on-policy* a nível de token exigem um alinhamento a nível de token entre os modelos estudante e professor, o que restringe a capacidade de exploração do modelo estudante, impede o uso eficaz do *feedback* do ambiente interativo e sofre de graves estrangulamentos de memória no aprendizado por reforço. Introduzimos a Destilação Verbal *On-policy* (OVD), uma estrutura eficiente em memória que substitui o emparelhamento de probabilidades a nível de token pelo emparelhamento de trajetórias usando pontuações verbais discretas (0-9) de modelos professores. A OVD reduz drasticamente o consumo de memória, permitindo ao mesmo tempo a destilação *on-policy* a partir de modelos professores com *feedback* verbal, e evita o alinhamento a nível de token, permitindo que o modelo estudante explore livremente o espaço de saída. Experimentos extensivos em tarefas de perguntas e respostas na Web e de raciocínio matemático mostram que a OVD supera substancialmente os métodos existentes, proporcionando uma melhoria absoluta de até +12,9% na EM média em tarefas de Perguntas e Respostas na Web e um ganho de até +25,7% em *benchmarks* de matemática (quando treinada com apenas uma amostra aleatória), exibindo também uma eficiência de treinamento superior. Nossa página do projeto está disponível em https://OVD.github.io.
O custo computacional durante a inferência ressurgiu como uma forma prática de melhorar o raciocínio de LLMs. A maioria dos algoritmos de escalonamento no momento do teste (TTS) depende de decodificação autoregressiva, que é inadequada para modelos de linguagem de difusão discreta (dLLMs) devido à sua decodificação paralela em toda a sequência. Consequentemente, desenvolver métodos TTS eficazes e eficientes para liberar todo o potencial generativo dos dLLMs continua sendo um desafio pouco explorado. Para resolver isso, propomos o Prism (Método de Poda, Remascaramento e Autoverificação Integrada), uma estrutura TTS eficiente para dLLMs que (i) executa uma Busca Hierárquica de Trajetória (HTS) que poda dinamicamente e realoca computação em uma janela de remoção de ruído inicial a média, (ii) introduz Ramificação Local com remascaramento parcial para explorar implementações diversas enquanto preserva tokens de alta confiança, e (iii) substitui verificadores externos por *Feedback de Autoverificação* (SVF) obtido por meio de *prompts* de autoavaliação em conclusões intermediárias. Em quatro benchmarks de raciocínio matemático e geração de código em três dLLMs, incluindo LLaDA 8B Instruct, Dream 7B Instruct e LLaDA 2.0-mini, nosso Prism alcança uma relação favorável entre desempenho e eficiência, equiparando-se ao desempenho do melhor-de-N com substancialmente menos avaliações de função (NFE). O código foi disponibilizado em https://github.com/viiika/Prism.
Embora os grandes modelos de linguagem (LLMs) representem um avanço significativo na inteligência artificial, os custos de hardware e computação para seu treinamento também são consideravelmente onerosos. Entre os otimizadores de última geração, o AdamW depende de estimativas de curvatura diagonal e ignora propriedades estruturais, enquanto o Muon aplica normalização espectral global à custa de perder informações de curvatura. Neste estudo, revisitamos os métodos de otimização em variedades (manifolds) para o treinamento de LLMs, os quais podem abordar as limitações de ambos os otimizadores, uma vez que os métodos convencionais de otimização em variedades têm sido largamente negligenciados devido ao seu desempenho insatisfatório na otimização de modelos em larga escala. Ao projetar inovadoramente o momento no espaço tangente dos parâmetros do modelo e restringi-lo a uma variedade oblíqua rotacional, propomos um novo, poderoso e eficiente otimizador, o **Mano**, que é o primeiro a preencher a lacuna de desempenho entre a otimização em variedades e os otimizadores modernos. Experimentos extensivos com os modelos LLaMA e Qwen3 demonstram que o Mano supera de forma consistente e significativa o AdamW e o Muon, mesmo com menor consumo de memória e complexidade computacional, respectivamente, sugerindo uma fronteira de Pareto expandida em termos de eficiência espacial e temporal.
Os Transformadores de Difusão são fundamentais para a geração de vídeos e imagens, mas sua eficiência é limitada pela complexidade quadrática do mecanismo de atenção. Embora a atenção esparsa por blocos acelere o cálculo ao atender apenas aos blocos chave-valor críticos, ela sofre degradação em alta esparsidade ao descartar contexto. Neste trabalho, descobrimos que os escores de atenção de blocos não críticos exibem estabilidade distribucional, permitindo que sejam aproximados de forma precisa e eficiente em vez de descartados, o que é essencial para o projeto de atenção esparsa. Motivados por esta percepção fundamental, propomos o PISA, uma Atenção Esparsa por Partes sem necessidade de treinamento que cobre todo o intervalo de atenção com complexidade subquadrática. Diferente do paradigma convencional de manter-ou-descartar que elimina diretamente a informação de blocos não críticos, o PISA introduz uma nova estratégia de exato-ou-aproximado: mantém o cálculo exato para blocos críticos enquanto aproxima eficientemente o restante através de expansão de Taylor por blocos. Este projeto permite que o PISA sirva como um proxy fiel da atenção completa, efetivamente preenchendo a lacuna entre velocidade e qualidade. Resultados experimentais demonstram que o PISA alcança acelerações de 1,91 vezes e 2,57 vezes em Wan2.1-14B e Hunyuan-Video, respectivamente, mantendo consistentemente a mais alta qualidade entre os métodos de atenção esparsa. Notavelmente, mesmo para geração de imagens no FLUX, o PISA alcança uma aceleração de 1,2 vezes sem comprometer a qualidade visual. O código está disponível em: https://github.com/xie-lab-ml/piecewise-sparse-attention.
Investigamos a relação entre a geometria da representação e o desempenho de redes neurais. Analisando 52 modelos pré-treinados do ImageNet em 13 famílias de arquiteturas, demonstramos que a dimensão efetiva — uma métrica geométrica não supervisionada — prevê fortemente a precisão. A dimensão efetiva da saída alcança um r parcial de 0,75 (p < 10^(-10)) após o controle pela capacidade do modelo, enquanto a compressão total alcança um r parcial de -0,72. Esses achados replicam-se no ImageNet e no CIFAR-10 e generalizam para PLN: a dimensão efetiva prevê o desempenho para 8 modelos codificadores no SST-2/MNLI e 15 LLMs apenas-decodificador no AG News (r=0,69, p=0,004), enquanto o tamanho do modelo não o faz (r=0,07). Estabelecemos causalidade bidirecional: degradar a geometria via ruído causa perda de precisão (r=-0,94, p < 10^(-9)), enquanto melhorar a geometria via PCA mantém a precisão entre arquiteturas (-0,03pp a 95% de variância). Esta relação é agnóstica ao tipo de ruído — ruídos Gaussiano, Uniforme, *Dropout* e *Salt-and-pepper* mostram todos |r| > 0,90. Estes resultados estabelecem que a dimensão efetiva fornece informação preditiva e causal agnóstica de domínio sobre o desempenho de redes neurais, calculada inteiramente sem rótulos.
O aprendizado por reforço tornou-se central para o pós-treinamento de grandes modelos de linguagem, no entanto, os algoritmos dominantes dependem de mecanismos de recorte (clipping) que introduzem problemas de otimização em escala, incluindo regiões de gradiente zero, exploração de recompensa (reward hacking) e instabilidade no treinamento. Propomos a Otimização de Política Livre de Recorte (CFPO), que substitui o recorte heurístico por uma penalidade quadrática convexa derivada de restrições de divergência de Variação Total, resultando em um objetivo diferenciável em toda parte que impõe atualizações de política estáveis sem limites rígidos. Avaliamos a CFPO em cenários de raciocínio e de alinhamento. No raciocínio, a CFPO equipara-se aos métodos baseados em recorte em benchmarks de avaliação, ao mesmo tempo que estende o regime de treinamento estável. No alinhamento, a CFPO mitiga a exploração de verbosidade e reduz a degradação de capacidade, ao mesmo tempo que alcança desempenho competitivo no seguimento de instruções. A CFPO requer apenas uma alteração de uma linha de código e nenhum hiperparâmetro adicional. Nossos resultados sugerem que a CFPO é uma alternativa promissora, de substituição direta, aos métodos baseados em recorte para o pós-treinamento de LLMs.
Os modelos existentes de Raciocínio Integrado com Ferramentas (TIR) estenderam efetivamente as capacidades de resposta a perguntas de LLMs através da incorporação de ferramentas externas. No entanto, cenários do mundo real apresentam numerosos problemas abertos nos quais ferramentas fixas frequentemente falham em atender aos requisitos da tarefa. Além disso, a falta de mecanismos de auto-otimização significa que saídas errôneas de ferramentas podem induzir em erro as respostas do LLM. Adicionalmente, a construção de ferramentas existentes exige um esforço manual significativo, o que consequentemente restringe sua aplicabilidade. Reconhecendo que os traços de raciocínio dos LLMs encapsulam capacidades implícitas de resolução de problemas, propomos o UCT, uma nova estrutura *training-free* que transforma agentes de usuários de ferramentas em criadores de ferramentas. Esta abordagem colhe experiências de raciocínio e as destila em ativos reutilizáveis. Este método transforma o agente de um mero utilizador de ferramentas num criador de ferramentas, permitindo a criação adaptativa de ferramentas e a auto-atualização durante o processo de inferência. Também introduzimos um mecanismo de consolidação de memória para manter a biblioteca de ferramentas, garantindo alta reutilização da memória experiencial retida para tarefas de raciocínio subsequentes. Este novo paradigma de construção automatizada de ferramentas melhora continuamente a qualidade das ferramentas durante o raciocínio, permitindo que o sistema geral do agente progrida sem treinamento adicional. Experimentos extensivos demonstram que o nosso método serve como um novo paradigma para melhorar as capacidades dos modelos TIR. Em particular, os ganhos significativos de desempenho alcançados (+20,86%↑ e +23,04%↑) em *benchmarks* de tarefas de raciocínio matemático e científico multidomínio validam a capacidade de auto-evolução do agente.
Proteções culturalmente conscientes são cruciais para o alinhamento da IA em contextos do mundo real, nos quais a segurança vai além do senso comum e abrange diversos valores locais, normas e regulamentações específicas de cada região. No entanto, a construção de conjuntos de dados em larga escala e com base cultural é desafiadora devido a recursos limitados e à escassez de anotadores nativos. Consequentemente, muitos modelos de salvaguarda dependem da tradução automática de conjuntos de dados em inglês, frequentemente perdendo nuances regionais e culturais. Apresentamos uma nova estrutura de geração de dados agentícia para criar de forma escalável conjuntos de dados de segurança autênticos e específicos para o Sudeste Asiático (SEA). Com base nisso, introduzimos a família SEA-Guard, os primeiros modelos de salvaguarda multilíngues fundamentados em contextos culturais do SEA. Avaliados em múltiplos benchmarks e variantes culturais, os modelos SEA-Guard superam consistentemente as salvaguardas existentes na detecção de conteúdo regionalmente sensível ou prejudicial, mantendo ao mesmo tempo um forte desempenho de segurança geral.
O aprendizado por reforço aprimora as capacidades de raciocínio de modelos de linguagem grandes, mas frequentemente envolve custos computacionais elevados devido à otimização intensiva em rollouts. A seleção online de prompts apresenta uma solução plausível ao priorizar prompts informativos para melhorar a eficiência do treinamento. Contudo, os métodos atuais dependem de avaliações exatas e custosas ou constroem modelos preditivos específicos para prompts, carecendo de generalização entre diferentes prompts. Este estudo introduz a Seleção Preditiva Generalizável de Prompts (GPS), que realiza inferência bayesiana sobre a dificuldade do prompt usando um modelo generativo leve treinado no histórico de otimização compartilhado. A priorização de dificuldade intermediária e a diversidade ancorada no histórico são incorporadas ao princípio de aquisição em lote para selecionar lotes de prompts informativos. O pequeno modelo preditivo também generaliza durante o teste para alocação computacional eficiente. Experimentos em diversos benchmarks de raciocínio indicam melhorias substanciais da GPS em eficiência de treinamento, desempenho final e eficiência durante o teste em comparação com métodos baselines superiores.
Introdução. A ética da IA é enquadrada de forma distinta entre os atores e grupos de interessados. Relatamos os resultados de um estudo de caso da OpenAI que analisa o discurso ético sobre IA. Método. A pesquisa abordou: Como o discurso público da OpenAI tem utilizado os conceitos de 'ética', 'segurança', 'alinhamento' e conceitos adjacentes ao longo do tempo, e o que o discurso sinaliza sobre o enquadramento na prática? Um corpus estruturado, diferenciando a comunicação para o público em geral da comunicação com o público académico, foi montado a partir de documentação pública. Análise. A análise de conteúdo qualitativa de temas éticos combinou códigos derivados indutivamente e aplicados dedutivamente. A análise quantitativa aproveitou métodos computacionais de análise de conteúdo via PLN para modelar tópicos e quantificar mudanças na retórica ao longo do tempo. Visualizações reportam os resultados agregados. Para resultados reproduzíveis, disponibilizámos o nosso código em https://github.com/famous-blue-raincoat/AI_Ethics_Discourse. Resultados. Os resultados indicam que o discurso sobre segurança e risco domina a comunicação e documentação públicas da OpenAI, sem a aplicação de quadros ou vocabulários éticos académicos e de advocacy. Conclusões. São apresentadas implicações para a governação, juntamente com uma discussão sobre práticas de _ethics-washing_ na indústria.
Os grandes modelos de linguagem (LLMs) são cada vez mais utilizados como juízes para avaliar o desempenho de agentes, particularmente em contextos não verificáveis onde os julgamentos dependem de trajetórias do agente que incluem raciocínio em cadeia (chain-of-thought, CoT). Este paradigma assume implicitamente que o CoT do agente reflete fielmente tanto o seu raciocínio interno quanto o estado subjacente do ambiente. Mostramos que esta suposição é frágil: os juízes baseados em LLM são altamente suscetíveis à manipulação dos rastros de raciocínio do agente. Ao reescrever sistematicamente os CoTs dos agentes mantendo as ações e observações fixas, demonstramos que a manipulação do raciocínio por si só pode inflacionar as taxas de falsos positivos dos melhores juízes VLM em até 90% em 800 trajetórias abrangendo diversas tarefas web. Estudamos estratégias de manipulação que abrangem abordagens baseadas em estilo, que alteram apenas a apresentação do raciocínio, e abordagens baseadas em conteúdo, que fabricam sinais de progresso da tarefa, e concluímos que as manipulações baseadas em conteúdo são consistentemente mais eficazes. Avaliamos técnicas baseadas em *prompting* e o aumento de computação no momento do julgamento, que reduzem, mas não eliminam totalmente, a suscetibilidade à manipulação. As nossas descobertas revelam uma vulnerabilidade fundamental na avaliação baseada em LLM e destacam a necessidade de mecanismos de julgamento que verifiquem as alegações de raciocínio face a evidências observáveis.
A inpintagem baseada em aprendizado profundo moderno permite uma manipulação realista de imagens locais, levantando desafios críticos para uma deteção confiável. No entanto, observamos que os detetores atuais dependem principalmente de artefactos globais que surgem como efeitos secundários da inpintagem, em vez de se focarem no conteúdo sintetizado localmente. Demonstramos que este comportamento ocorre porque a reconstrução baseada em VAE induz uma mudança espectral subtil mas generalizada em toda a imagem, incluindo regiões não editadas. Para isolar este efeito, introduzimos a Operação de Troca de Inpintagem (INP-X), uma operação que restaura os píxeis originais fora da região editada, preservando todo o conteúdo sintetizado. Criámos um conjunto de dados de teste de 90K, incluindo imagens reais, inpintadas e trocadas, para avaliar este fenómeno. Sob esta intervenção, os detetores pré-treinados de última geração, incluindo comerciais, exibem uma queda drástica na precisão (por exemplo, de 91\% para 55\%), frequentemente aproximando-se do nível de acerto aleatório. Fornecemos uma análise teórica que relaciona este comportamento com a atenuação de alta frequência causada pelos estrangulamentos de informação do VAE. As nossas descobertas destacam a necessidade de uma deteção consciente do conteúdo. Com efeito, o treino no nosso conjunto de dados produz uma melhor generalização e localização do que a inpintagem padrão. O nosso conjunto de dados e código estão publicamente disponíveis em https://github.com/emirhanbilgic/INP-X.
Os sistemas multiagente emergiram como um paradigma poderoso para automatizar a descoberta científica. Para diferenciar o comportamento dos agentes no sistema multiagente, as estruturas atuais normalmente atribuem personas genéricas baseadas em funções, como "revisor" ou "escritor", ou dependem de personas de granularidade grossa baseadas em palavras-chave. Embora funcional, esta abordagem simplifica excessivamente a forma como os cientistas humanos operam, cujas contribuições são moldadas pelas suas trajetórias de pesquisa únicas. Em resposta, propomos o INDIBATOR, uma estrutura para descoberta molecular que ancora os agentes em perfis de cientistas individualizados, construídos a partir de duas modalidades: histórico de publicações para conhecimento derivado da literatura e histórico molecular para priores estruturais. Estes agentes participam num debate multi-turno através de fases de proposta, crítica e votação. A nossa avaliação demonstra que estes agentes com individualidade de granularidade fina superam consistentemente os sistemas que dependem de personas de granularidade grossa, alcançando desempenho competitivo ou de ponta. Estes resultados validam que capturar o "ADN científico" de agentes individuais é essencial para uma descoberta de alta qualidade.
Os sistemas de recuperação densa de domínio aberto de propósito geral são normalmente treinados com uma grande e eclética mistura de corpora e tarefas de busca. Como essas diversas coleções de dados e tarefas devem ser amostradas para o treinamento? As abordagens convencionais as amostram de forma uniforme, proporcional ao tamanho de suas populações de instâncias, ou dependem de supervisão especializada humana. É bem sabido que a estratégia de amostragem dos dados de treinamento pode impactar significativamente o desempenho do modelo. No entanto, como encontrar a estratégia ideal não foi adequadamente estudado no contexto dos modelos de embedding. Propomos o Inf-DDS, uma nova estrutura de amostragem orientada por aprendizagem por reforço que repondera adaptativamente os conjuntos de dados de treinamento guiada por sinais de recompensa baseados em influência e é muito mais leve em relação ao consumo de GPU. Nossa técnica refina iterativamente a política de amostragem, priorizando conjuntos de dados que maximizam o desempenho do modelo em um conjunto de desenvolvimento alvo. Avaliamos a eficácia da nossa estratégia de amostragem em uma ampla gama de tarefas de recuperação de texto, demonstrando fortes melhorias no desempenho de recuperação e uma melhor adaptação em comparação com os métodos de amostragem baseados em gradiente existentes, além de ser 1,5 a 4 vezes mais econômica em computação de GPU. Nossa estratégia de amostragem alcança uma melhoria absoluta de 5,03 no NDCG@10 ao treinar um modelo multilíngue bge-m3 e uma melhoria absoluta de 0,94 no NDCG@10 ao treinar o all-MiniLM-L6-v2, mesmo começando com pesos atribuídos por especialistas em um grande conjunto de conjuntos de dados de treinamento.
A avaliação cross-lingual de grandes modelos de linguagem (LLMs) tipicamente confunde duas fontes de variância: diferenças genuínas de desempenho do modelo e instabilidade da medição. Investigamos a confiabilidade da avaliação mantendo constantes as condições de geração enquanto variamos o idioma de destino. Utilizando diálogos sintéticos de suporte ao cliente gerados com parâmetros idênticos em Estoniano, Finlandês e Húngaro, testamos se as métricas automáticas e a pontuação por LLM-como-juiz produzem rankings de modelo estáveis nestas línguas fino-úgricas, morfologicamente ricas e aparentadas. Com um pequeno conjunto de anotações de falantes nativos de Estoniano como ponto de referência, encontramos instabilidades sistemáticas de ranking: métricas de superfície (diversidade lexical, similaridade superficial e semântica) mantêm estabilidade cross-lingual, mas julgamentos pragmáticos (coerência, seguimento de instruções) exibem inversões de ranking e correlações próximas de zero. Como a geração é controlada, estas inconsistências refletem como a pontuação do juiz se comporta de forma diferente entre os idiomas, e não verdadeiras diferenças do modelo. Este desenho controlado fornece uma sonda diagnóstica: métodos de avaliação que falham em manter a estabilidade sob condições idênticas de geração sinalizam falha de transferência antes da implantação. Os nossos resultados sugerem que a transferência *zero-shot* de juízes não é confiável para avaliação a nível discursivo em línguas morfologicamente ricas, motivando uma calibração específica por idioma com base em linhas de base humanas direcionadas. Disponibilizamos o nosso protocolo de geração controlada, dados sintéticos e estrutura de avaliação para permitir a replicação entre famílias linguísticas em https://github.com/isaac-chung/cross-lingual-stability-judges.
Este artigo apresenta o YOLOE-26, uma estrutura unificada que integra a arquitetura YOLO26 (ou YOLOv26) otimizada para implantação com o paradigma de aprendizado de vocabulário aberto do YOLOE para segmentação de instâncias em tempo real com vocabulário aberto. Com base no projeto *end-to-end* e livre de NMS do YOLOv26, a abordagem proposta preserva a eficiência e o determinismo característicos da família YOLO, estendendo suas capacidades para além do reconhecimento em conjuntos fechados. O YOLOE-26 emprega uma *backbone* convolucional com agregação de características multi-escala no estilo PAN/FPN, seguida por cabeças de regressão e segmentação de instâncias *end-to-end*. Uma contribuição arquitetônica fundamental é a substituição dos *logits* de classe fixos por um cabeçote de incorporação de objetos, que formula a classificação como uma correspondência de similaridade contra incorporações derivadas de descrições textuais, exemplos visuais ou um vocabulário interno. Para permitir um raciocínio de vocabulário aberto eficiente, a estrutura incorpora o Alinhamento Região-Texto Re-parametrizável (RepRTA) para *prompting* textual de custo zero, um Codificador de *Prompt* Visual Ativado Semanticamente (SAVPE) para segmentação guiada por exemplos e o Contraste de *Prompt* de Região Preguiçoso para inferência sem *prompts*. Todas as modalidades de *prompting* operam dentro de um espaço unificado de incorporação de objetos, permitindo a transição perfeita entre segmentação com *prompt* textual, com *prompt* visual e totalmente autônoma. Experimentos extensivos demonstram comportamento de escala consistente e compensações favoráveis entre precisão e eficiência em vários tamanhos de modelo, tanto em configurações com quanto sem *prompts*. A estratégia de treinamento aproveita conjuntos de dados de detecção e *grounding* em larga escala com otimização multitarefa e mantém total compatibilidade com o ecossistema Ultralytics para treinamento, validação e implantação. No geral, o YOLOE-26 fornece uma solução prática e escalável para segmentação de instâncias em tempo real com vocabulário aberto em ambientes dinâmicos do mundo real.
A Computação de Reservatórios (RC) estabeleceu-se como um paradigma eficiente para processamento temporal. No entanto, a sua escalabilidade permanece severamente limitada por (i) a necessidade de processar dados temporais sequencialmente e (ii) a pegada de memória proibitiva de reservatórios de alta dimensão. Neste trabalho, revisitamos a RC através da lente de operadores estruturados e modelação de espaço de estados para superar estas limitações, introduzindo a Rede de Eco Paralela (ParalESN). A ParalESN permite a construção de reservatórios de alta dimensão e eficientes baseados em recorrência linear diagonal no espaço complexo, permitindo o processamento paralelo de dados temporais. Fornecemos uma análise teórica demonstrando que a ParalESN preserva a Propriedade do Estado de Eco e as garantias de universalidade das Redes de Eco tradicionais, admitindo simultaneamente uma representação equivalente de reservatórios lineares arbitrários na forma diagonal complexa. Empiricamente, a ParalESN iguala a precisão preditiva da RC tradicional em benchmarks de séries temporais, ao mesmo tempo que proporciona economias computacionais substanciais. Em tarefas de classificação a nível de píxeis 1-D, a ParalESN atinge uma precisão competitiva com redes neuronais totalmente treináveis, enquanto reduz os custos computacionais e o consumo de energia em ordens de magnitude. No geral, a ParalESN oferece um caminho promissor, escalável e fundamentado para integrar a RC no panorama da aprendizagem profunda.
A representação neural implícita (INR) tem se mostrado precisa e eficiente em diversos domínios. Neste trabalho, exploramos como diferentes redes neurais podem ser projetadas como uma nova INR para texturas, que opera de maneira contínua em vez de discreta sobre o espaço de coordenadas UV de entrada. Por meio de experimentos abrangentes, demonstramos que essas INRs apresentam bom desempenho em termos de qualidade de imagem, com uso de memória considerável e tempo de inferência de renderização. Analisamos o equilíbrio entre esses objetivos. Além disso, investigamos várias aplicações relacionadas em renderização em tempo real e tarefas subsequentes, como ajuste de mipmap e geração no espaço INR.
Os grandes modelos de linguagem podem gerar respostas fluidas que são infiéis ao contexto fornecido, enquanto muitas salvaguardas dependem de verificação externa ou de um juiz separado após a geração. Introduzimos assinaturas de fluxo interno que auditam a formação de decisões a partir da dinâmica em profundidade em um limite de monitoramento inter-bloco fixo. O método estabiliza o movimento token a token via monitoramento centrado em viés, então resume trajetórias em subespaços compactos de leitura alinhada em movimento, construídos a partir do token principal e seus concorrentes próximos dentro de cada janela de profundidade. Quadros de janela vizinhos são alinhados por um transporte ortogonal, produzindo comprimentos de passo transportados comparáveis em profundidade, ângulos de virada e resumos de deriva de subespaço que são invariantes às escolhas de base dentro da janela. Um validador GRU leve treinado nessas assinaturas realiza auto-verificação sem modificar o modelo base. Além da detecção, o validador localiza um evento de profundidade culpado e permite um refinamento direcionado: o modelo retrocede ao token culpado e corrige um passo transportado anormal no bloco identificado, preservando o residual ortogonal. O pipeline resultante fornece localização acionável e auto-verificação de baixa sobrecarga a partir da dinâmica interna de decisão. O código está disponível em github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.
Propomos a Codificação de Posição Parabólica (PaPE), uma codificação de posição baseada em parábola para modalidades visuais em arquiteturas baseadas em atenção. Dado um conjunto de tokens visuais - como imagens, nuvens de pontos, vídeos ou fluxos de câmeras de evento - nosso objetivo é codificar suas posições considerando as características das modalidades visuais. Trabalhos anteriores estenderam amplamente as codificações de posição de sequências 1D na linguagem para estruturas nD na visão, mas apenas com consideração parcial das características visuais. Abordamos essa lacuna projetando a PaPE a partir de princípios extraídos de trabalhos anteriores: invariância à translação, invariância à rotação (PaPE-RI), decaimento com a distância, direcionalidade e consciência contextual. Avaliamos a PaPE em 8 conjuntos de dados que abrangem 4 modalidades. Descobrimos que a PaPE ou a PaPE-RI alcançam o melhor desempenho em 7 dos 8 conjuntos de dados. Experimentos de extrapolação no ImageNet-1K mostram que a PaPE extrapola notavelmente bem, melhorando em termos absolutos em até 10,5% em relação à próxima melhor codificação de posição. O código está disponível em https://github.com/DTU-PAS/parabolic-position-encoding.
Embora o uso de LLM-como-Avaliador seja amplamente difundido na avaliação automatizada, as práticas de validação existentes operam principalmente no nível das saídas observadas, oferecendo insights limitados sobre se os próprios juízes LLM funcionam como instrumentos de medição estáveis e confiáveis. Para enfrentar essa limitação, introduzimos um framework de diagnóstico de duas fases para avaliar a confiabilidade do paradigma LLM-como-Avaliador, fundamentado na Teoria de Resposta ao Item (TRI). O framework adota o Modelo de Resposta Graduada (Graded Response Model - GRM) da TRI e formaliza a confiabilidade ao longo de duas dimensões complementares: (1) a consistência intrínseca, definida como a estabilidade do comportamento de medição sob variações de prompt, e (2) o alinhamento humano, que capta a correspondência com as avaliações de qualidade humanas. Examinamos empiricamente diversos juízes LLM com este framework e demonstramos que a utilização do modelo TRI-GRM produz sinais interpretáveis para diagnosticar julgamentos de forma sistemática. Esses sinais fornecem orientação prática para verificar a confiabilidade do LLM-como-Avaliador e identificar causas potenciais de inconsistência.