Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que a otimização pós-treinamento se torna central para a melhoria de modelos de linguagem de grande porte, observamos um persistente gargalo de saturação: uma vez que os modelos atingem alta confiança, treinamentos adicionais produzem retornos decrescentes. Embora os métodos existentes continuem a reforçar previsões-alvo, descobrimos que sinais supervisionados informativos permanecem latentes nos próprios estados históricos fracos dos modelos. Motivados por essa observação, propomos o WMSS (Agentes Fracos Podem Tornar Agentes Fortes Mais Fortes), um paradigma de pós-treinamento que aproveita checkpoints fracos para orientar a otimização contínua. Ao identificar lacunas de aprendizagem recuperáveis através da dinâmica de entropia e reforçá-las por meio de aprendizagem compensatória, o WMSS permite que agentes fortes melhorem além da saturação convencional de pós-treinamento. Experimentos em conjuntos de dados de raciocínio matemático e geração de código mostram que agentes treinados com nossa abordagem alcançam melhorias de desempenho efetivas, enquanto incorrem em custo zero de inferência adicional.
A execução de tarefas complexas no terminal continua a ser um desafio significativo para os LLMs de pesos abertos, limitada por duas restrições fundamentais. Primeiro, ambientes de treino executáveis e de alta fidelidade são escassos: ambientes sintetizados a partir de repositórios do mundo real não são diversificados e escaláveis, enquanto as trajetórias sintetizadas por LLMs sofrem de alucinações. Segundo, o *fine-tuning* padrão por instrução utiliza trajetórias de especialistas que raramente exibem os erros simples comuns a modelos menores. Isto cria um desajuste distribucional, deixando os modelos estudantes mal preparados para recuperar das suas próprias falhas em tempo de execução. Para colmatar estas lacunas, introduzimos o TermiGen, um *pipeline* de ponta a ponta para sintetizar ambientes verificáveis e trajetórias de especialista resilientes. O TermiGen gera primeiro tarefas funcionalmente válidas e contentores Docker através de um ciclo iterativo de refinamento multiagente. Subsequentemente, empregamos um protocolo Gerador-Crítico que injeta ativamente erros durante a recolha de trajetórias, sintetizando dados ricos em ciclos de correção de erros. Após *fine-tuning* com este conjunto de dados gerado pelo TermiGen, o nosso TermiGen-Qwen2.5-Coder-32B atinge uma taxa de sucesso de 31,3% no TerminalBench. Isto estabelece um novo estado da arte para modelos de pesos abertos, superando os *baselines* existentes e ultrapassando notavelmente modelos proprietários capazes, como o o4-mini. O conjunto de dados está disponível em https://github.com/ucsb-mlsec/terminal-bench-env.
Os mercados financeiros são ruidosos e não estacionários, tornando a mineração de alfa altamente sensível ao ruído nos resultados de backtesting e a mudanças abruptas de regime de mercado. Embora estruturas agentes recentes aprimorem a automação da mineração de alfa, elas frequentemente carecem de busca multirodada controlável e reutilização confiável de experiências validadas. Para enfrentar esses desafios, propomos o QuantaAlpha, uma estrutura evolutiva de mineração de alfa que trata cada execução de mineração de ponta a ponta como uma trajetória e aprimora fatores por meio de operações de mutação e cruzamento em nível de trajetória. O QuantaAlpha localiza etapas subótimas em cada trajetória para revisão direcionada e recombina segmentos complementares de alta recompensa para reutilizar padrões eficazes, permitindo exploração e refinamento estruturados ao longo das iterações de mineração. Durante a geração de fatores, o QuantaAlpha impõe consistência semântica entre a hipótese, a expressão do fator e o código executável, enquanto restringe a complexidade e redundância do fator gerado para mitigar o crowding. Experimentos extensivos no Índice de Ações da China 300 (CSI 300) demonstram ganhos consistentes sobre modelos de linha de base robustos e sistemas agentes anteriores. Ao utilizar o GPT-5.2, o QuantaAlpha atinge um Coeficiente de Informação (IC) de 0,1501, com uma Taxa Anualizada de Retorno (TAR) de 27,75% e um Drawdown Máximo (MDD) de 7,98%. Além disso, fatores minerados no CSI 300 transferem-se efetivamente para o Índice de Ações da China 500 (CSI 500) e para o Índice Standard & Poor's 500 (S&P 500), proporcionando retorno excedente acumulado de 160% e 137% ao longo de quatro anos, respectivamente, o que indica forte robustez do QuantaAlpha sob mudanças na distribuição de mercado.
O áudio é indispensável para vídeos do mundo real, no entanto, os modelos de geração têm largamente negligenciado os componentes de áudio. As abordagens atuais para produzir conteúdo audiovisual frequentemente dependem de pipelines em cascata, o que aumenta o custo, acumula erros e degrada a qualidade geral. Embora sistemas como o Veo 3 e o Sora 2 enfatizem o valor da geração simultânea, a modelagem multimodal conjunta introduz desafios únicos em arquitetura, dados e treinamento. Além disso, a natureza de código fechado dos sistemas existentes limita o progresso na área. Neste trabalho, apresentamos o MOVA (MOSS Video and Audio), um modelo de código aberto capaz de gerar conteúdo audiovisual sincronizado de alta qualidade, incluindo discurso com sincronização labial realista, efeitos sonoros conscientes do ambiente e música alinhada com o conteúdo. O MOVA emprega uma arquitetura *Mixture-of-Experts* (MoE), com um total de 32B de parâmetros, dos quais 18B estão ativos durante a inferência. Ele suporta a tarefa de geração IT2VA (Imagem-Texto para Vídeo-Áudio). Ao liberar os pesos do modelo e o código, visamos avançar a pesquisa e fomentar uma comunidade vibrante de criadores. O código liberado possui suporte abrangente para inferência eficiente, *fine-tuning* LoRA e aprimoramento de *prompts*.
Apesar do sucesso da aprendizagem contrastiva multimodal no alinhamento de representações visuais e linguísticas, uma anomalia geométrica persistente, o Hiato de Modalidade, permanece: incorporações de modalidades distintas que expressam semânticas idênticas ocupam regiões sistematicamente deslocadas. As abordagens anteriores para reduzir este hiato são largamente limitadas por suposições isotrópicas excessivamente simplificadas, dificultando sua aplicação em cenários de larga escala. Neste artigo, abordamos estas limitações caracterizando precisamente a forma geométrica do hiato de modalidade e aproveitando-a para uma escalagem eficiente de modelos. Primeiro, propomos a Teoria do Hiato de Modalidade com Referencial Fixo, que decompõe o hiato de modalidade dentro de um referencial congelado em vieses estáveis e resíduos anisotrópicos. Guiados por esta modelagem precisa, introduzimos o ReAlign, uma estratégia de alinhamento modal livre de treinamento. Utilizando estatísticas de dados massivos não pareados, o ReAlign alinha a representação textual na distribuição de representação de imagem através de um processo de três etapas compreendendo o Alinhamento de Âncora, Traço e Centróide, retificando assim explicitamente o desalinhamento geométrico. Com base no ReAlign, propomos o ReVision, um paradigma de treinamento escalável para Modelos de Linguagem Multimodais de Grande Escala (MLLMs). O ReVision integra o ReAlign na fase de pré-treinamento, permitindo que o modelo aprenda a distribuição das representações visuais a partir de texto não pareado antes do ajuste fino por instrução visual, sem a necessidade de pares imagem-texto em larga escala e de alta qualidade. Nosso framework demonstra que dados não pareados estatisticamente alinhados podem substituir efetivamente os dispendiosos pares imagem-texto, oferecendo um caminho robusto para a escalagem eficiente de MLLMs.
Os agentes de LLM (Large Language Models) possuem um potencial significativo para impulsionar a pesquisa científica. Para acelerar esse progresso, apresentamos o AIRS-Bench (o *AI Research Science Benchmark*), um conjunto de 20 tarefas extraídas de artigos de ponta em aprendizado de máquina. Essas tarefas abrangem domínios diversos, incluindo modelagem de linguagem, matemática, bioinformática e previsão de séries temporais. As tarefas do AIRS-Bench avaliam capacidades agentes ao longo de todo o ciclo de vida da pesquisa — incluindo geração de ideias, análise de experimentos e refinamento iterativo — sem fornecer código de linha de base. O formato de tarefa do AIRS-Bench é versátil, permitindo a fácil integração de novas tarefas e uma comparação rigorosa entre diferentes estruturas agentes. Estabelecemos linhas de base usando modelos de fronteira emparelhados com estruturas de suporte (*scaffolds*) sequenciais e paralelas. Nossos resultados mostram que os agentes superam o estado da arte (SOTA) humano em quatro tarefas, mas não o igualam em outras dezesseis. Mesmo quando os agentes superam os benchmarks humanos, eles não atingem o teto teórico de desempenho para as tarefas subjacentes. Essas descobertas indicam que o AIRS-Bench está longe de estar saturado e oferece espaço substancial para melhorias. Disponibilizamos como código aberto as definições de tarefas e o código de avaliação do AIRS-Bench para catalisar um maior desenvolvimento na pesquisa científica autônoma.
Apresentamos o InternAgent-1.5, um sistema unificado concebido para a descoberta científica de ponta a ponta em domínios computacionais e empíricos. O sistema é construído sobre uma arquitetura estruturada composta por três subsistemas coordenados para geração, verificação e evolução. Estes subsistemas são suportados por capacidades fundamentais de pesquisa profunda, otimização de soluções e memória de longo horizonte. A arquitetura permite que o InternAgent-1.5 opere continuamente através de ciclos de descoberta prolongados, mantendo um comportamento coerente e em melhoria. Também possibilita que o sistema coordene a modelagem computacional e a experimentação laboratorial dentro de um único sistema unificado. Avaliamos o InternAgent-1.5 em benchmarks de raciocínio científico como GAIA, HLE, GPQA e FrontierScience, e o sistema atinge um desempenho líder que demonstra sólidas capacidades fundamentais. Para além destes benchmarks, avaliamos ainda duas categorias de tarefas de descoberta. Em tarefas de descoberta de algoritmos, o InternAgent-1.5 concebe autonomamente métodos competitivos para problemas centrais de aprendizagem automática. Em tarefas de descoberta empírica, executa experiências computacionais ou laboratoriais completas e produz descobertas científicas nos domínios da terra, da vida, biológicos e físicos. No geral, estes resultados mostram que o InternAgent-1.5 fornece uma estrutura geral e escalável para a descoberta científica autónoma.
Os modelos atuais de Visão-Linguagem-Ação (VLA) dependem de uma profundidade computacional fixa, aplicando a mesma quantidade de processamento tanto para ajustes simples quanto para manipulações complexas de múltiplas etapas. Embora o *prompting* de Cadeia de Pensamento (CoT) permita computação variável, ele escala a memória linearmente e é inadequado para espaços de ação contínuos. Apresentamos o VLA com Profundidade Recorrente (RD-VLA), uma arquitetura que alcança adaptabilidade computacional por meio de refinamento iterativo latente, em vez de geração explícita de *tokens*. O RD-VLA emprega um cabeçalho de ação recorrente e com pesos compartilhados, que suporta profundidade de inferência arbitrária com uma pegada de memória constante. O modelo é treinado usando retropropagação através do tempo truncada (TBPTT) para supervisionar eficientemente o processo de refinamento. Na inferência, o RD-VLA aloca dinamicamente o processamento usando um critério de parada adaptativo baseado na convergência latente. Experimentos em tarefas de manipulação desafiadoras mostram que a profundidade recorrente é crítica: tarefas que falham completamente (0% de sucesso) com inferência de iteração única excedem 90% de sucesso com quatro iterações, enquanto tarefas mais simples saturam rapidamente. O RD-VLA fornece um caminho escalável para processamento em tempo de teste em robótica, substituindo o raciocínio baseado em *tokens* por raciocínio latente para alcançar uso de memória constante e aceleração de inferência de até 80x em relação aos modelos VLA anteriores baseados em raciocínio. Página do projeto: https://rd-vla.github.io/
Embora o LLaDA2.0 tenha demonstrado o potencial de escalabilidade dos modelos de blocos-difusão de nível 100B e sua paralelização inerente, o delicado equilíbrio entre velocidade de decodificação e qualidade da geração permanecia uma fronteira indescritível. Hoje, revelamos o LLaDA2.1, uma mudança de paradigma concebida para transcender esse trade-off. Ao integrar perfeitamente a edição Token-para-Token (T2T) ao esquema convencional Máscara-para-Token (M2T), introduzimos um esquema de decodificação por limiar conjunto e configurável. Esta inovação estrutural dá origem a duas personas distintas: o Modo Veloz (S Mode), que audaciosamente reduz o limiar M2T para contornar as restrições tradicionais, dependendo do T2T para refinar a saída; e o Modo Qualidade (Q Mode), que adota limiares conservadores para assegurar desempenhos superiores em benchmarks com uma degradação de eficiência controlável. Avançando nesta evolução, e suportado por uma janela de contexto expansiva, implementamos o primeiro framework de Aprendizagem por Reforço (RL) em larga escala especificamente adaptado para dLLMs, ancorado por técnicas especializadas para estimativa estável de gradientes. Este alinhamento não apenas aprimora a precisão do raciocínio, mas também eleva a fidelidade no seguimento de instruções, construindo uma ponte entre a dinâmica de difusão e a complexidade da intenção humana. Concluímos este trabalho com o lançamento do LLaDA2.1-Mini (16B) e do LLaDA2.1-Flash (100B). Através de 33 benchmarks rigorosos, o LLaDA2.1 oferece um forte desempenho em tarefas e uma velocidade de decodificação extremamente rápida. Apesar do seu volume de 100B, em tarefas de codificação atinge impressionantes 892 TPS no HumanEval+, 801 TPS no BigCodeBench e 663 TPS no LiveCodeBench.
A aprendizagem de políticas online diretamente no mundo físico é uma direção promissora, mas desafiadora, para a inteligência incorporada. Ao contrário da simulação, os sistemas do mundo real não podem ser acelerados arbitrariamente, reiniciados de forma barata ou replicados massivamente, o que torna difícil a coleta escalável de dados, a implantação heterogénea e o treino eficaz de longo horizonte. Estes desafios sugerem que a aprendizagem de políticas no mundo real não é apenas uma questão algorítmica, mas fundamentalmente um problema de sistemas. Apresentamos o USER, um Sistema Unificado e extensível para a aprendizagem de políticas online no mundo real. O USER trata os robôs físicos como recursos de hardware de primeira classe, juntamente com GPUs, através de uma camada de abstração de hardware unificada, permitindo a descoberta, gestão e escalonamento automáticos de robôs heterogéneos. Para lidar com a comunicação cloud-edge, o USER introduz um plano de comunicação adaptativo com rede baseada em túneis, canais de dados distribuídos para localização de tráfego e sincronização de pesos consciente do streaming-multiprocessador para regular a sobrecarga do lado da GPU. Sobre esta infraestrutura, o USER organiza a aprendizagem como um quadro totalmente assíncrono com um buffer persistente e consciente da cache, permitindo experiências eficientes de longo horizonte com recuperação robusta de falhas e reutilização de dados históricos. Além disso, o USER fornece abstrações extensíveis para recompensas, algoritmos e políticas, suportando a aprendizagem por imitação ou por reforço online de CNN/MLP, políticas generativas e grandes modelos visão-linguagem-ação (VLA) dentro de um pipeline unificado. Resultados tanto em simulação como no mundo real mostram que o USER permite a coordenação de múltiplos robôs, manipuladores heterogéneos, colaboração edge-cloud com grandes modelos e treino assíncrono de longa duração, oferecendo uma base de sistemas unificada e extensível para a aprendizagem de políticas online no mundo real.
A convergência entre a inteligência artificial e a ciência dos materiais apresenta uma oportunidade transformadora, mas a aceleração genuína da descoberta exige que se vá além de modelos com tarefas isoladas e ajustados individualmente, rumo a sistemas agentes que planejam, agem e aprendem em todo o ciclo de descoberta. Este estudo avança uma visão única centrada em *pipelines* que abrange desde a curadoria de corpus e o pré-treinamento, passando pela adaptação de domínio e ajuste por instrução, até agentes condicionados por objetivos que interagem com plataformas de simulação e experimentação. Diferente de revisões anteriores, tratamos todo o processo como um sistema de ponta a ponta a ser otimizado para resultados tangíveis de descoberta, e não para métricas substitutas. Esta perspectiva permite-nos rastrear como escolhas de projeto a montante – como a curadoria de dados e os objetivos de treinamento – podem ser alinhadas com o sucesso experimental a jusante através de uma atribuição de crédito eficaz. Para unir as comunidades e estabelecer um quadro de referência comum, apresentamos primeiro uma lente integrada que alinha a terminologia, a avaliação e as etapas de fluxo de trabalho entre a IA e a ciência dos materiais. Em seguida, analisamos o campo através de duas lentes focais: Da perspectiva da IA, o estudo detalha os pontos fortes dos LLMs em reconhecimento de padrões, análise preditiva e processamento de linguagem natural para mineração de literatura, caracterização de materiais e previsão de propriedades; da perspectiva da ciência dos materiais, destaca aplicações no projeto de materiais, otimização de processos e a aceleração de fluxos de trabalho computacionais via integração com ferramentas externas (ex.: DFT, laboratórios robóticos). Por fim, contrastamos abordagens passivas e reativas com o design agentivo, catalogando contribuições atuais enquanto motivamos sistemas que perseguem objetivos de longo prazo com autonomia, memória e uso de ferramentas. Este estudo traça um roteiro prático rumo a agentes de LLM autónomos e conscientes da segurança, voltados para a descoberta de materiais novos e úteis.
A implementação do GRPO em modelos de Flow Matching tem se mostrado eficaz para geração de texto-imagem. No entanto, os paradigmas existentes normalmente propagam uma recompensa baseada em resultado para todas as etapas de desruído precedentes sem distinguir o efeito local de cada etapa. Além disso, o ranqueamento grupal atual compara principalmente trajetórias em intervalos de tempo correspondentes e ignora as dependências dentro da trajetória, onde certas ações iniciais de desruído podem afetar estados posteriores por meio de interações implícitas e atrasadas. Propomos o TurningPoint-GRPO (TP-GRPO), uma estrutura GRPO que alivia a esparsidade de recompensa passo a passo e modela explicitamente os efeitos de longo prazo dentro da trajetória de desruído. O TP-GRPO introduz duas inovações principais: (i) substitui as recompensas baseadas em resultado por recompensas incrementais em nível de etapa, fornecendo um sinal de aprendizado denso e consciente da etapa que melhor isola o efeito "puro" de cada ação de desruído, e (ii) identifica pontos de virada - etapas que invertem a tendência de recompensa local e tornam a evolução subsequente da recompensa consistente com a tendência geral da trajetória - e atribui a essas ações uma recompensa de longo prazo agregada para capturar seu impacto atrasado. Os pontos de virada são detectados apenas por meio de mudanças de sinal nas recompensas incrementais, tornando o TP-GRPO eficiente e livre de hiperparâmetros. Experimentos extensivos também demonstram que o TP-GRPO explota sinais de recompensa de forma mais eficaz e melhora consistentemente a geração. O código de demonstração está disponível em https://github.com/YunzeTong/TurningPoint-GRPO.
A resolução de questões científicas de resposta aberta continua a ser um desafio para os grandes modelos de linguagem, principalmente devido à supervisão e avaliação inerentemente não confiáveis. O principal obstáculo reside na construção de dados e no desenho de recompensas para o pós-treinamento científico. Desenvolvemos um *pipeline* sistemático e em larga escala de processamento de dados que transforma dados científicos de código aberto heterogéneos no conjunto de dados Dr. SCI, que compreende 1 milhão de questões em oito disciplinas STEM, com divisões explícitas entre verificáveis e de resposta aberta, anotação escalável de dificuldade e rubricas de avaliação finas que operacionalizam a avaliação de respostas abertas. Com base neste conjunto de dados, propomos o *pipeline* de pós-treinamento Dr. SCI, que redesenha o fluxo de trabalho padrão SFT -> RL através de três componentes: (i) SFT de Expansão da Exploração, que amplia a cobertura de padrões de raciocínio do modelo antes do RL; (ii) Currículo Dinâmico de Dificuldade, que adapta os dados de treino à capacidade científica em evolução do modelo; e (iii) RL Guiado por SciRubric, que permite aprendizagem por reforço estável em questões científicas abertas através de avaliação baseada em rubricas com correção explícita da resposta. O modelo Qwen3-4B-Base treinado com o *pipeline* Dr. SCI atinge 63.2 no GPQA-diamond e 32.4 no GPQA-general, melhorando consistentemente em relação a *baselines* fortemente pós-treinados, como o o1-mini e o GPT-4o, demonstrando ganhos substanciais no raciocínio científico, especialmente em contextos de resposta aberta.
Os recentes avanços em modelos de geração de imagens permitiram a previsão de estados futuros de Interface Gráfica do Utilizador (GUI) com base em instruções do utilizador. No entanto, os benchmarks existentes focam-se principalmente na fidelidade visual de domínio geral, deixando a avaliação das transições de estado e da coerência temporal em contextos específicos de GUI subexplorada. Para colmatar esta lacuna, introduzimos o GEBench, um benchmark abrangente para avaliar a interação dinâmica e a coerência temporal na geração de GUI. O GEBench compreende 700 amostras cuidadosamente selecionadas abrangendo cinco categorias de tarefas, cobrindo tanto interações de passo único como trajetórias de múltiplos passos em cenários do mundo real e ficcionais, bem como a localização de pontos de ancoragem. Para suportar uma avaliação sistemática, propomos o GE-Score, uma nova métrica de cinco dimensões que avalia: Realização do Objetivo, Lógica de Interação, Consistência de Conteúdo, Plausibilidade da UI e Qualidade Visual. Avaliações extensivas em modelos atuais indicam que, embora estes apresentem bons desempenhos em transições de passo único, lutam significativamente para manter a coerência temporal e a ancoragem espacial em sequências de interação mais longas. As nossas descobertas identificam a interpretação de ícones, a renderização de texto e a precisão de localização como estrangulamentos críticos. Este trabalho fornece uma base para a avaliação sistemática e sugere direções promissoras para pesquisas futuras visando a construção de ambientes generativos de GUI de alta fidelidade. O código está disponível em: https://github.com/stepfun-ai/GEBench.
Apesar das crescentes capacidades de compreensão de vídeo dos recentes Modelos de Linguagem Multimodais de Grande Porte (MLLMs), os benchmarks de vídeo existentes avaliam principalmente a compreensão com base no conhecimento estático e interno dos modelos, em vez da sua capacidade de aprender e adaptar-se a contextos dinâmicos e novos a partir de poucos exemplos. Para colmatar esta lacuna, apresentamos a Aprendizagem em Contexto de Vídeo Orientada por Demonstrações (Demo-driven Video In-Context Learning), uma nova tarefa focada em aprender a partir de demonstrações em contexto para responder a perguntas sobre os vídeos-alvo. Paralelamente, propomos o Demo-ICL-Bench, um benchmark desafiador concebido para avaliar as capacidades de aprendizagem em contexto de vídeo orientada por demonstrações. O Demo-ICL-Bench é construído a partir de 1200 vídeos instrucionais do YouTube com perguntas associadas, a partir dos quais são derivados dois tipos de demonstrações: (i) resumo das legendas dos vídeos para demonstração textual; e (ii) vídeos instrucionais correspondentes como demonstrações em vídeo. Para enfrentar eficazmente este novo desafio, desenvolvemos o Demo-ICL, um MLLM com uma estratégia de treino em duas etapas: afinação supervisionada por vídeo (video-supervised fine-tuning) e otimização de preferência direta assistida por informação (information-assisted direct preference optimization), melhorando conjuntamente a capacidade do modelo de aprender a partir de exemplos em contexto. Experiências extensivas com MLLMs de última geração confirmam a dificuldade do Demo-ICL-Bench, demonstram a eficácia do Demo-ICL e, assim, revelam direções futuras de investigação.
A memória é cada vez mais central para agentes de modelos de linguagem de grande escala (LLM) que operam além de uma única janela de contexto, mas a maioria dos sistemas existentes depende de uma construção de memória offline e independente de consulta, que pode ser ineficiente e pode descartar informações críticas para a consulta. Embora a utilização de memória em tempo de execução seja uma alternativa natural, trabalhos anteriores frequentemente incorrem em sobrecarga substancial e oferecem controle explícito limitado sobre o compromisso entre desempenho e custo. Neste trabalho, apresentamos o BudgetMem, uma estrutura de memória para agentes em tempo de execução que permite um controle explícito e consciente da consulta sobre o desempenho e o custo. O BudgetMem estrutura o processamento da memória como um conjunto de módulos de memória, cada um oferecido em três níveis de orçamento (ou seja, Baixo/Médio/Alto). Um roteador leve executa o roteamento de níveis de orçamento entre os módulos para equilibrar o desempenho da tarefa e o custo de construção da memória, sendo implementado como uma política neural compacta treinada com aprendizado por reforço. Usando o BudgetMem como uma plataforma de teste unificada, estudamos três estratégias complementares para realizar os níveis de orçamento: implementação (complexidade do método), raciocínio (comportamento de inferência) e capacidade (tamanho do modelo do módulo). Nos conjuntos de dados LoCoMo, LongMemEval e HotpotQA, o BudgetMem supera bases de comparação fortes quando o desempenho é priorizado (ou seja, configuração de alto orçamento) e oferece melhores fronteiras de precisão-custo sob orçamentos mais restritos. Além disso, nossa análise desmistifica os pontos fortes e fracos das diferentes estratégias de hierarquização, esclarecendo quando cada eixo oferece os compromissos mais favoráveis sob diferentes regimes de orçamento.
O avanço dos grandes modelos de linguagem (LLMs) acelerou significativamente o desenvolvimento de agentes de busca capazes de recolher informações de forma autónoma através de interações multi-turno na web. Vários benchmarks foram propostos para avaliar tais agentes. No entanto, os benchmarks existentes frequentemente constroem consultas retroativamente a partir de respostas, produzindo tarefas artificiais desalinhadas com as necessidades do mundo real. Além disso, estes benchmarks tendem a focar-se na localização de informação específica ou na agregação de informação de múltiplas fontes, enquanto dependem de conjuntos de respostas estáticos propensos à contaminação de dados. Para colmatar estas lacunas, introduzimos o GISA, um benchmark para Assistentes Gerais de Busca de Informação composto por 373 consultas criadas manualmente que refletem cenários autênticos de procura de informação. O GISA apresenta quatro formatos de resposta estruturados (item, conjunto, lista e tabela), permitindo uma avaliação determinística. Integra tanto o raciocínio profundo como a agregação ampla de informação dentro de tarefas unificadas, e inclui um subconjunto dinâmico com respostas atualizadas periodicamente para resistir à memorização. Notavelmente, o GISA fornece trajetórias de busca humana completas para cada consulta, oferecendo referências de padrão-ouro para supervisão a nível de processo e aprendizagem por imitação. Experiências com LLMs mainstream e produtos de busca comerciais revelam que mesmo o modelo com melhor desempenho atinge apenas 19,30% de pontuação de correspondência exata, com o desempenho a degradar-se notavelmente em tarefas que exigem planeamento complexo e recolha abrangente de informação. Estes resultados destacam um espaço substancial para melhorias futuras.
Os modelos de linguagem de grande escala (LLMs) estão cada vez mais capacitados para executar tarefas do mundo real de longa duração. No entanto, à medida que a quantidade de contexto aumenta, sua confiabilidade frequentemente se deteriora, um fenômeno conhecido como "deterioração de contexto" (context rot). Os benchmarks existentes para contexto longo concentram-se principalmente em configurações de etapa única que avaliam a capacidade de um modelo de recuperar informações de um trecho longo. Em cenários realistas, porém, os LLMs frequentemente precisam atuar como agentes que exploram ambientes, seguem instruções e planos, extraem informações úteis e preveem ações corretas sob um contexto que cresce dinamicamente. Para avaliar agentes de linguagem nesses cenários, apresentamos o LOCA-bench (um benchmark para Agentes de LOngo Contexto). Dado um prompt de tarefa, o LOCA-bench aproveita o controle automatizado e escalável dos estados do ambiente para regular o comprimento do contexto do agente. Este projeto permite que o LOCA-bench estenda o comprimento do contexto potencialmente ao infinito de forma controlada, mantendo a semântica da tarefa subjacente fixa. O LOCA-bench avalia os agentes de linguagem como uma combinação de modelos e estruturas de suporte (scaffolds), incluindo várias estratégias de gerenciamento de contexto. Embora o desempenho do agente geralmente se degrade à medida que os estados do ambiente se tornam mais complexos, técnicas avançadas de gerenciamento de contexto podem melhorar substancialmente a taxa de sucesso geral. Disponibilizamos o LOCA-bench como código aberto para fornecer uma plataforma para avaliar modelos e estruturas de suporte em cenários agentivos de longo contexto: https://github.com/hkust-nlp/LOCA-bench
A inteligência espacial incorporada exige que os agentes ajam para adquirir informações sob observabilidade parcial. Embora os modelos de fundação multimodais se destaquem na percepção passiva, sua capacidade para exploração ativa e autodirigida permanece pouco estudada. Propomos a Teoria do Espaço, definida como a capacidade de um agente de adquirir informações ativamente por meio de exploração autodirigida e ativa, e de construir, revisar e explorar uma crença espacial a partir de observações sequenciais e parciais. Avaliamos isso por meio de um benchmark cujo objetivo é a exploração guiada pela curiosidade para construir um mapa cognitivo preciso. Uma inovação fundamental é o *spatial belief probing* (sondagem da crença espacial), que solicita que os modelos revelem suas representações espaciais internas a cada etapa. Nossa avaliação dos modelos de última geração revela vários gargalos críticos. Primeiro, identificamos um *Active-Passive Gap* (Fosso Ativo-Passivo), onde o desempenho cai significativamente quando os agentes devem coletar informações de forma autônoma. Segundo, encontramos alta ineficiência, pois os modelos exploram de forma não sistemática em comparação com proxies baseados em programas. Através da sondagem da crença, diagnosticamos que, embora a percepção seja um gargalo inicial, as crenças globais sofrem de instabilidade que faz com que o conhecimento espacial se degrade ao longo do tempo. Finalmente, usando um paradigma de falsa crença, descobrimos a *Belief Inertia* (Inércia da Crença), onde os agentes falham em atualizar prévias obsoletas com novas evidências. Este problema está presente em agentes baseados em texto, mas é particularmente severo em modelos baseados em visão. Nossas descobertas sugerem que os modelos de fundação atuais têm dificuldade em manter crenças espaciais coerentes e revisáveis durante a exploração ativa.
A geração de relatórios de pesquisa aprofundada requer aquisição de informação em larga escala e a síntese de análises orientadas por insights, representando um desafio significativo para os modelos de linguagem atuais. A maioria das abordagens existentes segue um paradigma de planear-depois-escrever, cujo desempenho depende fortemente da qualidade do esboço inicial. No entanto, a construção de um esboço abrangente exige, por si só, uma forte capacidade de raciocínio, fazendo com que os sistemas atuais de pesquisa profunda dependam quase exclusivamente de grandes modelos *online* ou de código fechado. Esta dependência levanta barreiras práticas à implementação e introduz preocupações de segurança e privacidade para os dados dos utilizadores. Neste trabalho, apresentamos o AgentCPM-Report, uma solução local leve mas de alto desempenho, composta por uma estrutura que espelha o processo humano de escrita e por um agente de pesquisa profunda com 8 mil milhões de parâmetros. A nossa estrutura utiliza uma Política de Escrita como Raciocínio (WARP), que permite aos modelos rever dinamicamente os esboços durante a geração do relatório. Sob esta política, o agente alterna entre a Redação Baseada em Evidências e o Aprofundamento Orientado por Raciocínio, suportando conjuntamente a aquisição de informação, o refinamento do conhecimento e a evolução iterativa do esboço. Para equipar eficazmente modelos pequenos com esta capacidade, introduzimos uma estratégia de Treino Agêntico Multiestágio, consistindo em arranque a frio, RL de competências atómicas e RL de pipeline holístico. Experiências no DeepResearch Bench, DeepConsult e DeepResearch Gym demonstram que o AgentCPM-Report supera os principais sistemas de código fechado, com ganhos substanciais em Insight.
Este trabalho apresenta o WorldCompass, uma nova estrutura de pós-treinamento por Reforço de Aprendizagem (RL) para modelos de mundo baseados em vídeo interativo e de longo horizonte, permitindo que eles explorem o mundo de forma mais precisa e consistente com base em sinais de interação. Para "direcionar" eficazmente a exploração do modelo de mundo, introduzimos três inovações centrais adaptadas ao paradigma de geração de vídeo autoregressivo: 1) Estratégia de *Rollout* a Nível de Clipe: Geramos e avaliamos múltiplas amostras num único clipe-alvo, o que aumenta significativamente a eficiência do *rollout* e fornece sinais de recompensa de granularidade fina. 2) Funções de Recompensa Complementares: Projetamos funções de recompensa tanto para a precisão no seguimento da interação quanto para a qualidade visual, as quais fornecem supervisão direta e suprimem eficazmente comportamentos de *reward-hacking*. 3) Algoritmo de RL Eficiente: Empregamos a estratégia de ajuste fino (*fine-tuning*) consciente do negativo, associada a várias otimizações de eficiência, para melhorar de forma eficiente e eficaz a capacidade do modelo. Avaliações no modelo de mundo de código aberto estado da arte, WorldPlay, demonstram que o WorldCompass melhora significativamente a precisão da interação e a fidelidade visual em vários cenários.
Os modelos de linguagem de grande porte (LLMs) químicos dependem predominantemente de Cadeias de Pensamento (CoT) explícitas em linguagem natural para realizar raciocínios complexos. No entanto, o raciocínio químico é inerentemente contínuo e estrutural, e forçá-lo em tokens linguísticos discretos introduz uma incompatibilidade fundamental de representação que limita tanto a eficiência quanto o desempenho. Apresentamos o LatentChem, uma interface de raciocínio latente que desacopla a computação química da geração textual, permitindo que os modelos realizem raciocínios de múltiplos passos diretamente no espaço latente contínuo, enquanto emitem linguagem apenas para as saídas finais. Notavelmente, observamos um comportamento emergente consistente: quando otimizados apenas para o sucesso da tarefa, os modelos internalizam espontaneamente o raciocínio, abandonando progressivamente as derivações textuais verbosas em favor da computação latente implícita. Esta mudança não é meramente estilística, mas computacionalmente vantajosa. Em diversos benchmarks de raciocínio químico, o LatentChem alcança uma taxa de vitória sem empate de 59,88% sobre linhas de base fortes baseadas em CoT no ChemCoTBench, enquanto proporciona uma aceleração média de 10,84 vezes na inferência. Nossos resultados fornecem evidências empíricas de que o raciocínio químico é realizado de forma mais natural e eficaz como dinâmicas latentes contínuas, em vez de trajetórias linguísticas discretizadas.
A quantização apenas de pesos tornou-se uma abordagem padrão para servir grandes modelos de linguagem (LLMs) de forma eficiente. No entanto, os métodos existentes falham em comprimir modelos eficientemente para níveis binários (1 bit), pois ou exigem grandes quantidades de dados e poder computacional ou incorrem em armazenamento adicional. Neste trabalho, propomos o NanoQuant, o primeiro método de quantização pós-treinamento (PTQ) a comprimir LLMs para níveis binários e sub-1-bit. O NanoQuant formula a quantização como um problema de fatoração binária de baixo posto (low-rank), comprimindo os pesos em precisão total para matrizes binárias de baixo posto e fatores de escala. Especificamente, ele utiliza um método eficiente dos multiplicadores de direção alternada (ADMM) para inicializar com precisão matrizes binárias latentes e fatores de escala, e depois ajusta os parâmetros inicializados através de um processo de reconstrução por blocos e do modelo. Consequentemente, o NanoQuant estabelece uma nova fronteira de Pareto na quantização pós-treinamento de baixa memória, alcançando precisão de última geração mesmo em taxas de compressão sub-1-bit. O NanoQuant torna a implantação em grande escala viável em hardware de consumo. Por exemplo, ele comprime o Llama2-70B em 25,8 vezes em apenas 13 horas em um único H100, permitindo que um modelo de 70B opere em uma GPU de consumo de 8 GB.
A inferência de contexto longo com Modelos de Linguagem de Grande Porte (LLMs) é dispendiosa devido à atenção quadrática e ao crescimento dos caches de chave-valor, motivando a compressão de contexto. Neste trabalho, estudamos a compressão suave de contexto, na qual um contexto longo é condensado em um pequeno conjunto de representações contínuas. Os métodos existentes normalmente reaproveitam o próprio LLM como um compressor treinável, dependendo da auto-atenção camada por camada para agregar informações iterativamente. Argumentamos que este paradigma sofre de duas limitações estruturais: (i) sobrescrita progressiva de representações entre as camadas e (ii) alocação descoordenada da capacidade de compressão entre os tokens. Propomos o ComprExIT (Compressão de Contexto via Transmissão Explícita de Informação), uma estrutura leve que formula a compressão suave em um novo paradigma: transmissão explícita de informação sobre os estados ocultos congelados do LLM. Isso desacopla a compressão da dinâmica interna de auto-atenção do modelo. O ComprExIT realiza (i) transmissão em profundidade para transmitir seletivamente informações de múltiplas camadas para âncoras de token, mitigando a sobrescrita progressiva, e (ii) transmissão em largura para agregar âncoras em um pequeno número de slots via um plano de transmissão globalmente otimizado, garantindo uma alocação coordenada da informação. Em seis benchmarks de resposta a perguntas, o ComprExIT supera consistentemente os métodos state-of-the-art de compressão de contexto enquanto introduz apenas ~1% de parâmetros adicionais, demonstrando que a transmissão explícita e coordenada de informação permite uma compressão de contexto longo mais eficaz e robusta.
Dedução, indução e abdução são paradigmas fundamentais de raciocínio, essenciais para o pensamento lógico humano. Embora a melhoria do raciocínio de Modelos de Linguagem de Grande Porte (LLMs) tenha atraído esforços significativos de pesquisa, o grau em que os paradigmas fundamentais induzem à generalização ainda não foi sistematicamente explorado. Neste estudo, elucidamos como a interação entre esses paradigmas centrais influencia o comportamento de raciocínio dos LLMs. Para tanto, primeiro coletamos um novo conjunto de dados de trajetórias de raciocínio a partir de tarefas simbólicas, cada uma focada em um dos três paradigmas fundamentais, para abstrair do conhecimento concreto do mundo. Em seguida, investigamos maneiras eficazes de induzir essas habilidades nos LLMs. Experimentamos com uma bateria de métodos, incluindo fine-tuning simples e abordagens mais complexas para aumentar a profundidade do modelo ou transformar um modelo denso em uma mistura de especialistas. Avaliamos comprehensivemente os modelos induzidos em tarefas realistas fora do domínio, que são inteiramente formuladas em linguagem natural e contêm conhecimento do mundo real. Nossos resultados revelam que nossa abordagem produz uma forte generalizabilidade com ganhos substanciais de desempenho (até 14,60) em tarefas realistas.
Os grandes modelos de raciocínio (LRMs) alcançam alto desempenho em tarefas complexas de raciocínio gerando trajetórias de raciocínio longas e multi-etapas, mas a escalabilidade no momento da inferência incorre em custos substanciais de implantação. Um desafio fundamental é que a dificuldade de geração varia dentro de uma única saída, enquanto as abordagens existentes orientadas para eficiência ignoram essa variação intrageração ou dependem de roteamento supervisionado a nível de token com alta complexidade do sistema. Apresentamos o RelayGen, uma estrutura de comutação de modelos em tempo de execução a nível de segmento, livre de treinamento, que explora a variação de dificuldade no raciocínio de longa forma. Através da análise offline da incerteza de geração usando margens de probabilidade de token, mostramos que o controle a nível de segmento de granularidade grossa é suficiente para capturar transições de dificuldade dentro de uma trajetória de raciocínio. O RelayGen identifica pistas de comutação específicas do modelo que sinalizam transições para segmentos de menor dificuldade e delega dinamicamente sua continuação a um modelo menor, preservando o raciocínio de alta dificuldade no modelo grande. Em vários benchmarks de raciocínio, o RelayGen reduz substancialmente a latência de inferência enquanto preserva a maior parte da precisão dos modelos grandes. Quando combinado com decodificação especulativa, o RelayGen alcança até 2,2 vezes de aceleração de ponta a ponta com menos de 2% de degradação de precisão, sem exigir treinamento adicional ou componentes de roteamento aprendidos.
Apesar dos rápidos avanços nos Modelos de Linguagem Multimodais de Grande Porte (MLLMs), o raciocínio espacial visual continua pouco confiável quando as respostas corretas dependem de como uma cena apareceria sob pontos de vista não observados ou alternativos. Trabalhos recentes abordam este problema aumentando o raciocínio com modelos de mundo para imaginação visual, mas questões como quando a imaginação é realmente necessária, qual a quantidade benéfica e quando ela se torna prejudicial permanecem pouco compreendidas. Na prática, a imaginação indiscriminada pode aumentar a computação e até mesmo degradar o desempenho ao introduzir evidências enganosas. Neste trabalho, apresentamos uma análise aprofundada da imaginação visual em tempo de teste como um recurso controlável para o raciocínio espacial. Estudamos quando a evidência visual estática é suficiente, quando a imaginação melhora o raciocínio e como a imaginação excessiva ou desnecessária afeta a precisão e a eficiência. Para sustentar esta análise, introduzimos o AVIC, uma estrutura adaptativa de tempo de teste com modelos de mundo que raciocina explicitamente sobre a suficiência da evidência visual atual antes de invocar e dimensionar seletivamente a imaginação visual. Através de benchmarks de raciocínio espacial (SAT, MMSI) e um benchmark de navegação incorporada (R2R), nossos resultados revelam cenários claros onde a imaginação é crítica, marginal ou prejudicial, e mostram que o controle seletivo pode igualar ou superar estratégias de imaginação fixa com substancialmente menos chamadas ao modelo de mundo e tokens de linguagem. No geral, nossas descobertas destacam a importância de analisar e controlar a imaginação em tempo de teste para um raciocínio espacial eficiente e confiável.
Recentemente, os modelos de difusão de vídeo autoregressivos (AR) alcançaram desempenho notável. No entanto, devido às suas durações limitadas de treinamento, surge uma lacuna entre treino e teste ao avaliar em horizontes mais longos, levando a degradações visuais rápidas. Seguindo o princípio de Self Forcing, que estuda essa lacuna dentro da duração do treinamento, este trabalho investiga a lacuna além da duração do treinamento, ou seja, a diferença entre os horizontes limitados durante o treino e os horizontes abertos durante o teste. Como o teste de horizonte aberto pode estender-se além de qualquer janela finita de treinamento, e o treino com vídeos longos é computacionalmente custoso, buscamos uma solução livre de treinamento adicional para preencher essa lacuna. Para explorar uma solução sem treinamento, realizamos uma análise sistemática da manutenção de cache em modelos AR. Esses insights levam ao método Rolling Sink. Desenvolvido com base no Self Forcing (treinado apenas com clipes de 5s), o Rolling Sink escala efetivamente a síntese de vídeo AR para durações ultralongas (por exemplo, 5-30 minutos a 16 FPS) durante o teste, com sujeitos consistentes, cores estáveis, estruturas coerentes e movimentos suaves. Como demonstrado por extensos experimentos, o Rolling Sink alcança fidelidade visual e consistência temporal em longo horizonte superiores em comparação com as linhas de base state-of-the-art (SOTA). Página do projeto: https://rolling-sink.github.io/
A geração de procedimentos passo a passo do tipo "como fazer" é uma capacidade fundamental dos LLMs: instruções de como realizar tarefas são comumente solicitadas em chatbots, e o planejamento sequencial é crucial para o raciocínio em tarefas complexas. No entanto, medir e melhorar a validade procedural em escala em tarefas do mundo real continua sendo um desafio e um tema pouco estudado. Para enfrentar isso, apresentamos o How2Everything, uma estrutura escalável para avaliar e melhorar a geração de procedimentos condicionada a objetivos. Nossa estrutura inclui o How2Mine, que extrai 351 mil procedimentos de 980 mil páginas da web em 14 tópicos e se escala facilmente para corpora maiores. A partir deste conjunto, construímos o How2Bench, um conjunto de avaliação com 7 mil exemplos, equilibrado entre os tópicos. Para pontuar de forma confiável as saídas dos modelos, desenvolvemos o How2Score, um protocolo de avaliação que usa um LLM como juiz para detectar se uma geração contém qualquer falha crítica que impediria a consecução do objetivo. Para uma avaliação de baixo custo e reproduzível, destilamos um modelo de ponta em um modelo aberto de 8B, alcançando 80,5% de concordância com anotadores humanos. O How2Bench revela tendências claras de escalonamento entre tamanhos de modelos e estágios de treinamento, fornecendo sinal já no início do pré-treinamento. Por fim, o uso de Aprendizado por Reforço (RL) com o How2Score como função de recompessa melhorou o desempenho no How2Bench em mais de 10 pontos em três modelos, sem regressões sistemáticas em benchmarks padrão, sendo os ganhos robustos contra a memorização superficial de documentos-fonte ou a simples conformidade de formato. Em conjunto, o How2Everything demonstra como dados da web de pré-treinamento podem sustentar um ciclo fechado de avaliação e melhoria de capacidades em escala.
Os modelos de base, incluindo os Grandes Modelos de Linguagem (LLMs), os Modelos Multimodais de Grande Linguagem (MLLMs), os Modelos Geradores de Imagem (ou seja, Modelos de Texto-para-Imagem e Modelos de Edição de Imagem) e os Modelos Geradores de Vídeo, tornaram-se ferramentas essenciais com ampla aplicação em diversos domínios, como direito, medicina, educação, finanças, ciência e outros. À medida que estes modelos são cada vez mais implementados no mundo real, garantir a sua confiabilidade e responsabilidade tornou-se crítico para a academia, a indústria e o governo. Este estudo aborda o desenvolvimento confiável e responsável dos modelos de base. Exploramos questões críticas, incluindo viés e justiça, segurança e privacidade, incerteza, explicabilidade e desvio de distribuição. A nossa investigação também abrange as limitações dos modelos, como as alucinações, bem como métodos como o alinhamento e a deteção de Conteúdo Gerado por Inteligência Artificial (AIGC). Para cada área, revemos o estado atual do campo e delineamos direções de pesquisa futuras concretas. Adicionalmente, discutimos as interseções entre estas áreas, destacando as suas conexões e desafios partilhados. Esperamos que o nosso estudo promova o desenvolvimento de modelos de base que não sejam apenas poderosos, mas também éticos, confiáveis, seguros e socialmente responsáveis.
A elicitação de raciocínio emergiu como uma técnica poderosa para melhorar o desempenho de modelos de linguagem grandes (LLMs) em tarefas complexas ao induzir o pensamento. No entanto, sua eficácia em cenários realistas de agentes envolvidos com usuários permanece incerta. Neste artigo, conduzimos um estudo abrangente sobre o efeito do pensamento explícito em agentes de LLM envolvidos com usuários. Nossos experimentos abrangem sete modelos, três benchmarks e duas instanciações de pensamento, e os avaliamos por meio de uma análise quantitativa de taxonomia de respostas e estudos de caso qualitativos de propagação de falhas. Contrariamente às expectativas, descobrimos que o pensamento obrigatório frequentemente surte efeito contrário em agentes em configurações envolvidas com o usuário, causando degradação anômala de desempenho em vários LLMs. Nossa principal descoberta revela que o pensamento torna os agentes mais "introvertidos", encurtando as respostas e reduzindo a divulgação de informações aos usuários, o que enfraquece a troca de informações entre agente e usuário e leva a falhas em tarefas subsequentes. Além disso, demonstramos que solicitar explicitamente a divulgação de informações melhora de forma confiável o desempenho em diversas famílias de modelos, sugerindo que a transparência proativa é uma alavanca vital para a otimização de agentes. No geral, nosso estudo sugere que a conscientização sobre a transparência da informação é uma perspectiva crucial, mas pouco explorada, para o futuro projeto de agentes de raciocínio em cenários do mundo real. Nosso código está disponível em https://github.com/deeplearning-wisc/Thinking-Agent.
O desenvolvimento da inteligência artificial pode ser visto como uma evolução dos paradigmas de aprendizagem orientados por dados, com mudanças sucessivas na organização e utilização de dados a impulsionar continuamente os avanços na capacidade dos modelos. A investigação atual em LLM é dominada por um paradigma que depende fortemente da escalagem unidirecional do volume de dados, encontrando cada vez mais estrangulamentos na disponibilidade de dados, no custo de aquisição e na eficiência do treino. Neste trabalho, argumentamos que o desenvolvimento da AGI está a entrar numa nova fase de coevolução dados-modelo, na qual os modelos orientam ativamente a gestão de dados, enquanto dados de alta qualidade, por sua vez, amplificam as capacidades dos modelos. Para implementar esta visão, propomos uma estrutura de gestão de dados hierárquica, concebida para suportar todo o ciclo de vida de treino de LLM em objetivos de aprendizagem heterogéneos e restrições de custo. Especificamente, introduzimos uma estrutura de gestão de dados hierárquica L0-L4, que vai desde recursos brutos não curados até conhecimento organizado e verificável. É importante notar que os LLMs são totalmente utilizados nos processos de gestão de dados, como a classificação de qualidade e a edição de conteúdo, para refinar os dados entre os níveis. Cada nível é caracterizado por propriedades de dados distintas, estratégias de gestão e funções de treino, permitindo que os dados sejam alocados estrategicamente nas várias fases de treino de LLM, incluindo pré-treino, meio-treino e alinhamento. A estrutura equilibra a qualidade dos dados, o custo de aquisição e o benefício marginal do treino, fornecendo uma abordagem sistemática para uma gestão de dados escalável e sustentável. Validamos a eficácia da estrutura proposta através de estudos empíricos, nos quais conjuntos de dados hierárquicos são construídos a partir de corpora brutos e utilizados em múltiplas fases de treino. Os resultados experimentais demonstram que a utilização de dados com consciência hierárquica melhora significativamente a eficiência do treino e o desempenho do modelo. Para facilitar investigação futura, disponibilizamos à comunidade os nossos conjuntos de dados hierárquicos e ferramentas de processamento.
Os paradigmas atuais para verificação de código dependem fortemente de mecanismos externos—como testes unitários baseados em execução ou juízes auxiliares baseados em LLM—que são frequentemente intensivos em mão de obra ou limitados pelas capacidades do próprio modelo de julgamento. Isso levanta uma questão fundamental, mas ainda não explorada: A correção funcional de um LLM pode ser avaliada puramente a partir de sua estrutura computacional interna? Nosso objetivo principal é investigar se a dinâmica neural do modelo codifica sinais internamente decodificáveis que são preditivos de validade lógica durante a geração de código. Inspirados pela interpretabilidade mecanicista, propomos tratar a verificação de código como uma tarefa de diagnóstico mecanicista, mapeando a trajetória algorítmica explícita do modelo em grafos de atribuição em nível de linha. Ao decompor fluxos residuais complexos, visamos identificar as assinaturas estruturais que distinguem o raciocínio sólido da falha lógica dentro dos circuitos internos do modelo. A análise em Python, C++ e Java confirma que os sinais intrínsecos de correção são robustos em diversas sintaxes. Características topológicas desses grafos internos preveem a correção com mais confiabilidade do que heurísticas superficiais e permitem intervenções causais direcionadas para corrigir lógica errônea. Essas descobertas estabelecem a introspecção interna como uma propriedade decodificável para verificar código gerado. Nosso código está em https:// github.com/bruno686/CodeCircuit.
As habilidades de agente estendem os agentes de modelo de linguagem de grande escala (LLM) com módulos reutilizáveis, semelhantes a programas, que definem condições de acionamento, lógica procedural e interações com ferramentas. À medida que essas habilidades proliferam em marketplaces públicos, não está claro quais tipos estão disponíveis, como os usuários as adotam e quais riscos elas representam. Para responder a essas questões, realizamos uma análise em larga escala e baseada em dados de 40.285 habilidades listadas publicamente em um marketplace principal. Nossos resultados mostram que a publicação de habilidades tende a ocorrer em rajadas curtas que acompanham mudanças na atenção da comunidade. Também descobrimos que o conteúdo das habilidades está altamente concentrado em fluxos de trabalho de engenharia de software, enquanto a recuperação de informações e a criação de conteúdo representam uma parcela substancial da adoção. Além das tendências de conteúdo, revelamos um pronunciado desequilíbrio entre oferta e demanda entre categorias, e mostramos que a maioria das habilidades permanece dentro dos orçamentos típicos de prompt, apesar de uma distribuição de comprimento com cauda pesada. Finalmente, observamos uma forte homogeneidade do ecossistema, com redundância generalizada em nível de intenção, e identificamos riscos de segurança não triviais, incluindo habilidades que permitem ações de alteração de estado ou em nível de sistema. No geral, nossas descobertas fornecem um instantâneo quantitativo das habilidades de agente como uma camada de infraestrutura emergente para agentes e informam trabalhos futuros sobre reutilização, padronização e design consciente da segurança de habilidades.
Embora os últimos anos tenham testemunhado progressos rápidos na síntese de voz, os sistemas de síntese de voz cantada (SVC) de código aberto ainda enfrentam barreiras significativas para a implantação industrial, particularmente em termos de robustez e generalização zero-shot. Neste relatório, apresentamos o SoulX-Singer, um sistema de SVC de código aberto de alta qualidade projetado com considerações práticas de implantação em mente. O SoulX-Singer suporta geração de canto controlada condicionada a partituras musicais simbólicas (MIDI) ou representações melódicas, permitindo um controle flexível e expressivo em fluxos de trabalho de produção do mundo real. Treinado com mais de 42.000 horas de dados vocais, o sistema suporta mandarim, inglês e cantonês e alcança consistentemente qualidade de síntese state-of-the-art entre os idiomas sob diversas condições musicais. Além disso, para permitir uma avaliação confiável do desempenho de SVC zero-shot em cenários práticos, construímos o SoulX-Singer-Eval, um benchmark dedicado com estrito desacoplamento treinamento-teste, facilitando a avaliação sistemática em configurações zero-shot.
Apresentamos o MotionCrafter, uma estrutura baseada em difusão de vídeo que reconstrói conjuntamente a geometria 4D e estima o movimento denso a partir de um vídeo monocular. O cerne do nosso método é uma nova representação conjunta de mapas de pontos 3D densos e fluxos de cena 3D em um sistema de coordenadas compartilhado, e um novo VAE 4D para aprender essa representação de forma eficaz. Diferente de trabalhos anteriores que forçam os valores 3D e os latentes a se alinharem estritamente com os latentes do VAE RGB - apesar de suas distribuições fundamentalmente diferentes - demonstramos que tal alinhamento é desnecessário e leva a um desempenho subótimo. Em vez disso, introduzimos uma nova estratégia de normalização de dados e treinamento de VAE que transfere melhor os *priors* de difusão e melhora significativamente a qualidade da reconstrução. Experimentos extensos em múltiplos conjuntos de dados demonstram que o MotionCrafter alcança desempenho state-of-the-art tanto na reconstrução geométrica quanto na estimativa de fluxo de cena denso, proporcionando melhorias de 38,64% e 25,0% na reconstrução geométrica e de movimento, respectivamente, tudo sem qualquer pós-otimização. Página do projeto: https://ruijiezhu94.github.io/MotionCrafter_Page
O aprendizado por reforço (RL) é amplamente utilizado para controle de humanoides, com métodos on-policy como o Proximal Policy Optimization (PPO) permitindo treinamento robusto por meio de simulação paralela em larga escala e, em alguns casos, implantação zero-shot em robôs reais. No entanto, a baixa eficiência amostral dos algoritmos on-policy limita a adaptação segura a novos ambientes. Embora o RL off-policy e o RL baseado em modelo tenham demonstrado maior eficiência amostral, ainda existe uma lacuna entre o pré-treinamento em larga escala e o ajuste fino eficiente em humanoides. Neste artigo, descobrimos que o Soft Actor-Critic (SAC) off-policy, com atualização em lote grande e uma alta razão Update-To-Data (UTD), suporta de forma confiável o pré-treinamento em larga escala de políticas de locomoção para humanoides, alcançando implantação zero-shot em robôs reais. Para adaptação, demonstramos que essas políticas pré-treinadas com SAC podem ser ajustadas em novos ambientes e tarefas fora da distribuição usando métodos baseados em modelo. A coleta de dados no novo ambiente executa uma política determinística, enquanto a exploração estocástica é confinada a um modelo mundial com informações físicas. Essa separação mitiga os riscos da exploração aleatória durante a adaptação, preservando ao mesmo tempo a cobertura exploratória para melhoria. No geral, a abordagem combina a eficiência em tempo real da simulação em larga escala durante o pré-treinamento com a eficiência amostral do aprendizado baseado em modelo durante o ajuste fino.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um método crítico para aprimorar as capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs). No entanto, o treinamento contínuo frequentemente leva ao colapso da entropia da política, caracterizado por uma rápida diminuição da entropia que resulta em excesso de confiança prematuro, redução da diversidade de saída e normas de gradiente que se anulam, inibindo o aprendizado. O *Clipping* de Preservação de Gradiente é um fator primário que influencia essas dinâmicas, mas as estratégias de mitigação existentes são amplamente estáticas e carecem de uma estrutura que conecte os mecanismos de *clipping* a um controle preciso da entropia. Este artigo propõe reformular o controle de entropia no AR a partir da perspectiva do *Clipping* de Preservação de Gradiente. Primeiro, verificamos teórica e empiricamente as contribuições de regiões específicas da taxa de amostragem por importância para o crescimento e a redução da entropia. Aproveitando essas descobertas, introduzimos um novo mecanismo de regulação que utiliza um limite de *clipping* dinâmico para gerenciar a entropia com precisão. Além disso, projetamos e avaliamos estratégias dinâmicas de controle de entropia, incluindo aumento-depois-diminuição, diminuição-aumento-diminuição e decaimento oscilatório. Resultados experimentais demonstram que essas estratégias mitigam efetivamente o colapso de entropia e alcançam desempenho superior em múltiplos *benchmarks*.
A obtenção de uma locomoção estável e energeticamente eficiente é essencial para que robôs humanoides operem continuamente em aplicações do mundo real. As abordagens existentes de MPC (Controlo Preditivo por Modelo) e RL (Aprendizagem por Reforço) frequentemente dependem de métricas relacionadas com energia incorporadas num quadro de otimização multiobjetivo, que exigem uma extensiva afinação de hiperparâmetros e frequentemente resultam em políticas subótimas. Para enfrentar estes desafios, propomos o ECO (Otimização com Restrições de Energia), um quadro de RL restrito que separa as métricas relacionadas com energia das recompensas, reformulando-as como restrições explícitas de desigualdade. Este método fornece uma representação física clara e interpretável dos custos energéticos, permitindo uma afinação de hiperparâmetros mais eficiente e intuitiva para melhorar a eficiência energética. O ECO introduz restrições dedicadas para o consumo de energia e movimento de referência, aplicadas pelo método Lagrangiano, para alcançar uma marcha estável, simétrica e energeticamente eficiente para robôs humanoides. Avaliámos o ECO em comparação com MPC, RL padrão com moldagem de recompensa e quatro métodos state-of-the-art de RL restrito. Experiências, incluindo transferências sim-para-sim e sim-para-real no robô humanoide de tamanho infantil BRUCE, demonstram que o ECO reduz significativamente o consumo de energia em comparação com os métodos de base, mantendo ao mesmo tempo um desempenho de marcha robusto. Estes resultados destacam um avanço substancial na locomoção energeticamente eficiente de humanoides. Todas as demonstrações experimentais podem ser encontradas no site do projeto: https://sites.google.com/view/eco-humanoid.
A tokenização é uma escolha de projeto crucial para a modelagem neural de linguagem em línguas morfologicamente ricas (LMRs), como o turco, onde a aglutinação produtiva desafia tanto a eficiência do vocabulário quanto a fidelidade morfológica. Estudos anteriores exploraram famílias de tokenizadores e tamanhos de vocabulário, mas tipicamente (i) variam o vocabulário sem controlar sistematicamente o corpus de treinamento do tokenizador, (ii) fornecem diagnósticos intrínsecos limitados e (iii) avaliam uma fatia estreita de tarefas downstream. Apresentamos o primeiro estudo abrangente e fundamentado da tokenização por subpalavras para o turco; um "manifesto das subpalavras", que varia conjuntamente o tamanho do vocabulário e o tamanho do corpus de treinamento do tokenizador (acoplamento de dados e vocabulário), compara múltiplas famílias de tokenizadores sob orçamentos de parâmetros equivalentes (WordPiece, nível morfológico e baselines de caracteres) e avalia através de sondagens semânticas (NLI, STS, análise de sentimentos, NER), sintáticas (POS, análise de dependências) e sensíveis à morfologia. Para explicar por que os tokenizadores têm sucesso ou falham, introduzimos um kit de ferramentas de diagnóstico consciente da morfologia que vai além de agregados grosseiros, analisando micro/macro F1 a nível de fronteira, acertos de atomicidade do lema versus fronteiras de superfície desacoplados, índices de super/ sub-segmentação, distâncias de edição de caractere/palavra (CER/WER), taxas de continuação e cobertura por tipo de afixo e atomicidade a nível de token. Nossas contribuições são quádruplas: (i) uma investigação sistemática da tríade vocabulário-corpus-sucesso; (ii) um quadro de avaliação unificado e consciente da morfologia, ligando diagnósticos intrínsecos a resultados extrínsecos; (iii) comparações controladas identificando quando a tokenização a nível de caractere e a nível morfológico são vantajosas; e (iv) um lançamento de código aberto do código de avaliação, pipelines de tokenização e modelos. Como o primeiro trabalho do género, este "manifesto das subpalavras" oferece orientação acionável para a construção de tokenizadores eficazes em LMRs e estabelece uma base reproduzível para pesquisas futuras.
Os modelos de recompensa (RMs) são cruciais para o treinamento de grandes modelos de linguagem (LLMs), mas normalmente dependem de pares de preferência anotados em larga escala por humanos. Com a implantação generalizada dos LLMs, as interações no ambiente real emergiram como uma fonte rica de sinais implícitos de recompensa. Isso levanta a questão: Podemos desenvolver modelos de recompensa diretamente a partir de interações no ambiente real? Neste trabalho, exploramos essa possibilidade adotando o WildChat como fonte de interação e propondo um pipeline para extrair feedback humano confiável, obtendo 186 mil instâncias de alta qualidade para treinar o WildReward via regressão ordinal diretamente no feedback do usuário, sem pares de preferência. Experimentos extensivos demonstram que o WildReward alcança desempenho comparável ou mesmo superior aos modelos de recompensa convencionais, com melhor calibração e consistência entre amostras. Também observamos que o WildReward beneficia-se diretamente da diversidade de usuários, onde mais usuários produzem modelos de recompensa mais robustos. Por fim, aplicamos o WildReward ao treinamento DPO online e observamos melhorias significativas em várias tarefas. Código e dados estão disponíveis em https://github.com/THU-KEG/WildReward.
Os recuperadores de interação tardia multivector, como o ColBERT, alcançam qualidade de recuperação de última geração, mas o seu custo no tempo de consulta é dominado pelo cálculo exaustivo das interações MaxSim a nível de token para cada documento candidato. Embora a aproximação da interação tardia com representações de vetor único reduza o custo, ela frequentemente incorre em uma perda substancial de precisão. Introduzimos o Col-Bandit, um algoritmo de poda em tempo de consulta que reduz este fardo computacional ao transformar a rerranqueamento num problema de identificação Top-K de população finita. O Col-Bandit mantém limites conscientes da incerteza sobre as pontuações de documentos parcialmente observados e revela de forma adaptativa apenas as entradas MaxSim (documento, token de consulta) necessárias para determinar os melhores resultados sob limites de decisão estatística com uma relaxação ajustável. Diferente de abordagens de granularidade grossa que podam documentos inteiros ou tokens offline, o Col-Bandit esparsifica a matriz de interação dinamicamente. Ele opera como uma camada de substituição imediata (drop-in) e de zero-shot sobre sistemas multivector padrão, não requerendo modificações no índice, pré-processamento offline ou retreinamento do modelo. Experimentos em benchmarks textuais (BEIR) e multimodais (REAL-MM-RAG) mostram que o Col-Bandit preserva a fidelidade do ranqueamento enquanto reduz os FLOPs do MaxSim em até 5 vezes, indicando que a pontuação densa de interação tardia contém redundância substancial que pode ser identificada e podada eficientemente no tempo de consulta.
A alocação de computação no momento do teste em grandes modelos de raciocínio (LRMs) é amplamente utilizada e tem aplicações na resolução de problemas matemáticos, síntese de código e planejamento. Trabalhos recentes abordaram esse problema através da expansão da autoconsistência e do pensamento paralelo, adicionando "tokens de pensamento" genéricos e instruindo os modelos a reler a questão antes de responder. Infelizmente, essas abordagens ou injetam tokens independentes da tarefa ou impõem heurísticas que não explicam – e frequentemente ignoram – a repetição espontânea que muitos LRMs exibem no início de suas cadeias internas. Em contraste, nós analisamos e aproveitamos a tendência do modelo de repetir a questão, que denominamos de Eco do Prompt (EOP), como um mecanismo de modelagem de computação com carga frontal. Formalizamos seu custo probabilístico enquadrando a remoção do eco como um condicionamento baseado em rejeição e definindo a Lacuna de Probabilidade do Eco (ΔL) como um proxy computável. Isso fornece a ligação teórica ausente que conecta a repetição inicial a ganhos de probabilidade e precisão subsequente. No entanto, isso por si só não especifica como explorar o EOP. Consequentemente, desenvolvemos o Ajuste Fino Supervisionado Destilado por Eco (ED-SFT) para incutir um padrão de "ecoar-depois-raciocinar" através do ajuste fino supervisionado, e a Promptagem Ecóica (EP) para reancorar o modelo no meio do rastreamento, sem necessidade de treinamento. Embora promissores, quantificar benefícios além da verbosidade não é trivial. Portanto, conduzimos análises de probabilidade controladas por comprimento e sufixo, juntamente com estudos de atenção por camadas, mostrando que o EOP aumenta a atenção da resposta para o prefixo da resposta nas camadas intermediárias, consistente com um mecanismo de refocalização da atenção. Avaliamos no GSM8K, MathQA, Hendrycks-MATH, AIME24 e MATH-500 sob configurações e orçamentos de decodificação idênticos, e encontramos ganhos consistentes em relação às linhas de base. O código está disponível em https://github.com/hhh2210/echoes-as-anchors.
Os sistemas agentes são avaliados em benchmarks onde os agentes interagem com ambientes para resolver tarefas. A maioria dos artigos reporta uma pontuação pass@1 calculada a partir de uma única execução por tarefa, assumindo que isto fornece uma estimativa de desempenho confiável. Nós testamos esta suposição recolhendo 60.000 trajetórias agentes no SWE-Bench-Verified, abrangendo três modelos e dois *scaffolds*. Descobrimos uma variância substancial: as estimativas pass@1 de uma única execução variam entre 2,2 e 6,0 pontos percentuais, dependendo de qual execução é selecionada, com desvios padrão superiores a 1,5 pontos percentuais, mesmo à temperatura 0. Esta variância tem implicações críticas: melhorias reportadas de 2 a 3 pontos percentuais podem refletir ruído de avaliação em vez de progresso algorítmico genuíno. Através de uma análise a nível de *token*, mostramos que as trajetórias divergem cedo, frequentemente nos primeiros poucos percentuais de *tokens*, e que estas pequenas diferenças se propagam em cascata para diferentes estratégias de solução. Para permitir uma avaliação confiável de sistemas agentes, recomendamos três práticas concretas: (1) estimar pass@1 a partir de múltiplas execuções independentes por tarefa, especialmente ao medir pequenas melhorias, (2) usar análise de poder estatístico para determinar o número de execuções necessárias para detetar os tamanhos de efeito esperados, e (3) considerar métricas como pass@k (limite otimista) e pass^k (limite pessimista) com k>1 para caracterizar melhor o envelope completo de desempenho. Embora estas práticas aumentem o custo da avaliação, elas são essenciais para distinguir o progresso científico genuíno do ruído estatístico.
Os modelos de linguagem de grande escala dependem de caches KV para evitar computação redundante durante a decodagem autoregressiva, mas à medida que o comprimento do contexto aumenta, a leitura e escrita do cache podem saturar rapidamente a largura de banda da memória da GPU. Trabalhos recentes exploraram a compressão do cache KV, porém a maioria das abordagens negligencia a natureza dependente de dados dos caches KV e sua variação entre as camadas. Apresentamos o KV-CoRE (Compressibilidade do Cache KV por Avaliação de Posto), um método baseado em SVD para quantificar a compressibilidade de baixo posto dependente de dados dos caches KV. O KV-CoRE calcula a aproximação ótima de baixo posto sob a norma de Frobenius e, por ser livre de gradientes e incremental, permite uma avaliação eficiente a nível de conjunto de dados e por camada. Usando este método, analisamos múltiplos modelos e conjuntos de dados abrangendo cinco domínios do inglês e dezesseis idiomas, revelando padrões sistemáticos que vinculam a compressibilidade à arquitetura do modelo, dados de treinamento e cobertura linguística. Como parte desta análise, empregamos o Posto Efetivo Normalizado como métrica de compressibilidade e demonstramos que ele se correlaciona fortemente com a degradação de desempenho sob compressão. Nosso estudo estabelece uma estrutura de avaliação fundamentada e o primeiro benchmark em larga escala da compressibilidade do cache KV em LLMs, oferecendo insights para compressão dinâmica e consciente dos dados e para o desenvolvimento de modelos centrados em dados.
Avanços recentes em arquiteturas de mistura de especialistas demonstraram que modelos de especialistas individuais podem ser treinados de forma federada, ou seja, isoladamente de outros especialistas, utilizando um modelo base comum para facilitar a coordenação. No entanto, levantamos a hipótese de que especialistas de tamanho completo podem não ser necessários para todos os domínios e que, em vez disso, adaptadores de baixo *rank* podem ser suficientes. Aqui, introduzimos o FlexMoRE, uma Mistura Flexível de Especialistas com *Rank* Heterogêneo, que pode ser composta por especialistas de tamanho completo ou por adaptadores com um *rank* adequado. Investigamos sistematicamente o equilíbrio entre o *rank* do especialista e o desempenho em tarefas subsequentes, avaliando 6 especialistas com *ranks* de 2^0 a 2^{14}, resultando em experimentos que abrangem 150 misturas (96 com 2 especialistas, 54 com 7 especialistas) avaliadas em 120 tarefas. Para nossos experimentos, baseamo-nos no FlexOlmo e convertemos seus especialistas pré-treinados em versões de baixo *rank*. Nossa análise de regressão do *rank* do especialista para o desempenho da tarefa subsequente revela que o *rank* de melhor desempenho é substancialmente maior para benchmarks com forte componente de raciocínio do que para benchmarks com forte componente de conhecimento. Essas descobertas sobre a sensibilidade ao *rank* trazem implicações diretas para a eficiência de memória: usando *ranks* ótimos, o FlexMoRE produz um desempenho superior em tarefas subsequentes (pontuação média de 47,18) em comparação com a mistura de linha de base no estilo FlexOlmo com especialistas de tamanho completo (pontuação média de 45,46), utilizando menos de um terço dos parâmetros (10,75B para FlexMoRE vs. 33,27B para FlexOlmo). Todo o código será disponibilizado.
Apresentamos o Aster, um agente de IA para descoberta científica autónoma capaz de operar a uma velocidade mais de 20 vezes superior à das estruturas existentes. Dada uma tarefa, um programa inicial e um script para avaliar o desempenho do programa, o Aster melhora iterativamente o programa, frequentemente alcançando novos desempenhos de ponta. A redução significativa no número de iterações necessárias para novas descobertas, proporcionada pelo Aster, expande o domínio dos problemas tratáveis para incluir tarefas com durações de avaliação longas, como execuções de treino de aprendizagem automática com várias horas. Aplicámos o Aster a problemas em matemática, engenharia de *kernels* para GPU, biologia, neurociência e treino de modelos de linguagem. Mais especificamente: o problema do mínimo sobreposição de Erdős, a otimização do *kernel* TriMul, um problema de remoção de ruído em análise de célula única, o treino de um modelo de previsão de atividade neural para obter bons resultados no ZAPBench e a NanoGPT Speedrun Competition. O Aster atinge resultados de ponta em todas as tarefas, exceto no ZAPBench, onde iguala o desempenho da melhor solução humana utilizando menos de 1/190 do poder computacional. O Aster está acessível através de uma interface *web* e de uma API em asterlab.ai.
A geração aumentada por recuperação (RAG) melhora o raciocínio de LLMs em tarefas intensivas em conhecimento, mas os pipelines de RAG existentes incorrem em sobrecarga substancial de recuperação e geração quando aplicados à correspondência de entidades em larga escala. Para superar esta limitação, apresentamos o CE-RAG4EM, uma arquitetura RAG de baixo custo que reduz a computação através de recuperação e geração em lote baseadas em blocagem. Também apresentamos um framework unificado para analisar e avaliar sistemas RAG para correspondência de entidades, focando em otimizações conscientes da blocagem e granularidade de recuperação. Experimentos extensivos sugerem que o CE-RAG4EM pode alcançar qualidade de correspondência comparável ou melhorada enquanto reduz substancialmente o tempo de execução de ponta a ponta em relação a linhas de base robustas. Nossa análise revela ainda que parâmetros-chave de configuração introduzem uma compensação inerente entre desempenho e sobrecarga, oferecendo orientação prática para projetar sistemas RAG eficientes e escaláveis para correspondência de entidades e integração de dados.
As Equações Diferenciais Parciais são precisas na modelação de fenómenos físicos, biológicos e gráficos. No entanto, os métodos numéricos sofrem com a maldição da dimensionalidade, custos computacionais elevados e discretização específica do domínio. O nosso objetivo é explorar os prós e contras de diferentes solucionadores de EDPs e aplicá-los a problemas específicos de simulação científica, incluindo a solução direta, problemas inversos e a descoberta de equações. Em particular, estendemos o recente solucionador de estrutura CNF (NeurIPS 2023) para configurações multidimensionais e não lineares, juntamente com aplicações subsequentes. Os resultados incluem a implementação de métodos selecionados, técnicas de autossintonização, avaliação em problemas de referência e um levantamento abrangente de solucionadores de EDPs baseados em redes neuronais e aplicações em simulação científica.
Os modelos linguístticos (LMs) modernos tendem a memorizar porções dos seus dados de treinamento e emitir trechos verbatim. Quando as fontes subjacentes são sensíveis ou protegidas por direitos autorais, tal reprodução levanta questões de consentimento e compensação para os criadores e riscos de conformidade para os desenvolvedores. Propomos o Decodificação Ancorada (Anchored Decoding), um método de inferência "plug-and-play" para suprimir a cópia textual: ele permite a decodificação de qualquer LM arriscado treinado em dados de licença mista, mantendo a geração em proximidade limitada a um LM seguro treinado de forma permissiva. A Decodificação Ancorada aloca adaptativamente um orçamento de informação escolhido pelo usuário ao longo da trajetória de geração e aplica restrições por etapa que produzem uma garantia a nível de sequência, permitindo um compromisso ajustável entre risco e utilidade. Para tornar a Decodificação Ancorada praticamente útil, introduzimos um novo modelo seguro treinado de forma permissiva (TinyComma 1.8B), bem como a Decodificação Ancorada_{Byte} (Anchored_{Byte} Decoding), uma variante do nosso método a nível de byte que permite a fusão transversal de vocabulário através da framework ByteSampler (Hayase et al., 2025). Avaliamos os nossos métodos em seis pares de modelos em avaliações de longo prazo de risco de direitos autorais e utilidade. A Decodificação Ancorada e a Decodificação Ancorada_{Byte} definem uma nova fronteira de Pareto, preservando fluência e factualidade próximas da original enquanto eliminam até 75% do gap mensurável de cópia (média de seis métricas de cópia) entre a linha de base de risco e uma referência segura, com uma sobrecarga de inferência modesta.
A compreensão emocional é essencial para a construção de agentes socialmente inteligentes. Embora os modelos de linguagem grandes multimodais recentes tenham demonstrado forte desempenho nesta tarefa, dois desafios principais persistem: associações espúrias entre emoções e pistas audiovisuais irrelevantes, e alucinações de pistas audiovisuais impulsionadas por *priors* textuais no *backbone* do modelo de linguagem. Para quantificar e compreender estas questões, introduzimos o EmoReAlM, um *benchmark* concebido para avaliar MLLMs quanto a associações pista-emoção, alucinações e concordância de modalidade. Propomos então o AVEm-DPO, uma técnica de otimização de preferências que alinha as respostas do modelo com os *inputs* audiovisuais e consultas centradas na emoção. Especificamente, construímos preferências sobre respostas que exibem associações espúrias ou alucinações, e pares de *input* audiovisual guiados por *prompts* textuais. Incluímos também um termo de regularização que penaliza a dependência de *priors* textuais, mitigando assim as alucinações de pistas específicas da modalidade. Resultados experimentais no DFEW, RAVDESS e EMER demonstram que o nosso método melhora significativamente o desempenho dos modelos de referência *baseline*, com ganhos de desempenho relativo de 6 a 19% em configurações *zero-shot*. Ao fornecer tanto um *benchmark* rigoroso como um quadro de otimização robusto, este trabalho permite uma avaliação e melhoria fundamentadas dos MLLMs para a compreensão emocional e a IA social. O código, modelos e *benchmark* serão disponibilizados em https://avere-iclr.github.io.
Os embeddings de texto permitem inúmeras aplicações de PLN, mas enfrentam sérios riscos de privacidade devido a ataques de inversão de embeddings, que podem expor atributos sensíveis ou reconstruir texto bruto. As defesas existentes baseadas em privacidade diferencial assumem uma sensibilidade uniforme entre as dimensões dos embeddings, resultando em ruído excessivo e degradação da utilidade. Propomos o SPARSE, uma estrutura centrada no usuário para proteção de privacidade específica por conceito em embeddings de texto. O SPARSE combina (1) aprendizado de máscara diferenciável para identificar dimensões sensíveis à privacidade para conceitos definidos pelo usuário, e (2) o mecanismo de Mahalanobis que aplica ruído elíptico calibrado pela sensibilidade dimensional. Diferente da injeção tradicional de ruído esférico, o SPARSE perturba seletivamente as dimensões sensíveis à privacidade, preservando a semântica não sensível. Avaliado em seis conjuntos de dados com três modelos de embedding e cenários de ataque, o SPARSE reduz consistentemente o vazamento de privacidade enquanto alcança desempenho superior em tarefas downstream em comparação com os métodos state-of-the-art de DP.
Os Modelos de Linguagem de Grande Porte (LLMs) prometem acelerar a descoberta ao raciocinar através do cenário científico em expansão. No entanto, o desafio já não é o acesso à informação, mas sim conectá-la de maneiras significativas e que abranjam diferentes domínios. Na ciência dos materiais, onde a inovação exige a integração de conceitos desde a química molecular até ao desempenho mecânico, este problema é especialmente agudo. Nem os humanos nem os LLMs de agente único podem lidar totalmente com esta torrente de informação, sendo os últimos frequentemente propensos a alucinações. Para resolver este estrangulamento, introduzimos uma arquitetura multiagente guiada por grafos de conhecimento de larga escala para encontrar substitutos sustentáveis para substâncias per e polifluoroalquil (PFAS) — químicos atualmente sob intenso escrutínio regulamentar. Os agentes na arquitetura especializam-se na decomposição de problemas, recuperação de evidências, extração de parâmetros de design e travessia de grafos, descobrindo conexões latentes entre diferentes bolsas de conhecimento para apoiar a geração de hipóteses. Estudos de ablação mostram que o *pipeline* multiagente completo supera o *prompting* de disparo único, sublinhando o valor da especialização distribuída e do raciocínio relacional. Demonstramos que, ao adaptar as estratégias de travessia do grafo, o sistema alterna entre buscas exploratórias, que focam em resultados críticos para o domínio, e buscas exploratórias, que revelam interconexões emergentes. Ilustrado através do exemplo de tubagem biomédica, o *framework* gera alternativas sustentáveis sem PFAS que equilibram desempenho tribológico, estabilidade térmica, resistência química e biocompatibilidade. Este trabalho estabelece um *framework* que combina grafos de conhecimento com raciocínio multiagente para expandir o espaço de design de materiais, apresentando vários candidatos de design iniciais para demonstrar a abordagem.
A descoberta causal é essencial para o avanço de áreas orientadas por dados, como a IA científica e a análise de dados, no entanto, as abordagens existentes enfrentam gargalos significativos de eficiência temporal e espacial ao escalar para grafos grandes. Para enfrentar este desafio, apresentamos o CauScale, uma arquitetura neural projetada para descoberta causal eficiente, que escala a inferência para grafos com até 1000 nós. O CauScale melhora a eficiência temporal através de uma unidade de redução que comprime *embeddings* de dados e melhora a eficiência espacial ao adotar pesos de atenção compartilhados para evitar a manutenção de mapas de atenção específicos por eixo. Para manter alta precisão na descoberta causal, o CauScale adota um design de dois fluxos: um fluxo de dados extrai evidências relacionais de observações de alta dimensão, enquanto um fluxo de grafo integra *priors* estatísticos de grafo e preserva sinais estruturais-chave. O CauScale escala com sucesso para grafos de 500 nós durante o treinamento, onde trabalhos anteriores falham devido a limitações de espaço. Em dados de teste com várias escalas de grafo e mecanismos causais, o CauScale alcança 99,6% de mAP em dados dentro da distribuição e 84,4% em dados fora da distribuição, enquanto oferece acelerações de inferência de 4 a 13.000 vezes em relação a métodos anteriores. Nossa página do projeto está em https://github.com/OpenCausaLab/CauScale.
O movimento coletivo em cardumes exemplifica a auto-organização emergente em sistemas de matéria ativa, porém as ferramentas computacionais para simular e analisar essas dinâmicas permanecem fragmentadas entre grupos de pesquisa. Apresentamos dewi-kadita, uma biblioteca Python de código aberto que implementa o modelo tridimensional baseado em zonas de Couzin com diagnósticos de entropia abrangentes adaptados para a pesquisa do comportamento coletivo marinho. A biblioteca introduz sete métricas de teoria da informação – entropia da coesão do cardume, entropia da polarização, entropia da estratificação por profundidade, entropia do momento angular, entropia do vizinho mais próximo, entropia da correlação de velocidades e entropia da forma do cardume – que caracterizam características organizacionais distintas inacessíveis a parâmetros de ordem clássicos. Essas métricas se combinam em um Índice de Agregação Oceânica (IAO) que fornece uma medida escalar única de desordem coletiva. A validação em quatro configurações canônicas (enxame, toro, paralelo dinâmico, altamente paralelo) confirma a reprodução correta de comportamentos de fase conhecidos: o enxame mantém desordem com polarização P < 0,1 e IAO ≈ 0,71, enquanto o estado altamente paralelo atinge P = 0,998 com IAO = 0,24 e a entropia da correlação de velocidades tendendo a zero. O arcabouço de entropia discrimina com sucesso as configurações de toro e paralelo dinâmico, que exibem magnitudes comparáveis de parâmetros de ordem através de diferentes mecanismos organizacionais. A compilação just-in-time (JIT) do Numba acelera os cálculos de interações pareadas em 10 a 100 vezes, permitindo simulações de 150 a 250 agentes ao longo de 1000 a 2000 passos de tempo em até cinco minutos em hardware padrão de estação de trabalho. A saída em NetCDF4 garante interoperabilidade com ferramentas de análise oceanográfica. A biblioteca atende à necessidade de infraestrutura padronizada e reproduzível na modelagem de comportamento coletivo, análoga aos códigos estabelecidos de dinâmica molecular.
Pesquisas recentes demonstram que os objetivos de Alinhamento de Preferências (AP) atuam como estimadores de divergência entre as distribuições de respostas alinhadas (escolhidas) e não alinhadas (rejeitadas). Neste trabalho, estendemos esta perspectiva baseada em divergência para cenários gerais de alinhamento, como o aprendizado por reforço com recompensas verificáveis (RLVR), onde apenas recompensas ambientais estão disponíveis. Dentro desta estrutura unificada, propomos a Otimização de Política Relativa por Grupo f (f-GRPO), uma classe de aprendizado por reforço *on-policy*, e a Perda de Alinhamento Híbrida f (f-HAL), um objetivo híbrido *on/off-policy*, para o alinhamento geral de LLMs com base na representação variacional de f-divergências. Fornecemos garantias teóricas de que estas classes de objetivos melhoram a recompensa média após o alinhamento. Empiricamente, validamos nossa estrutura em tarefas de RLVR (Raciocínio Matemático) e AP (Alinhamento de Segurança), demonstrando desempenho e flexibilidade superiores em comparação com os métodos atuais.
A Recuperação Multimodal Universal (UMR) visa a busca qualquer-para-qualquer entre texto e visão, mas os modelos modernos de incorporação permanecem frágeis quando as consultas exigem raciocínio latente (por exemplo, resolver referências subespecificadas ou corresponder a restrições composicionais). Argumentamos que essa fragilidade é frequentemente induzida por dados: quando as imagens carregam evidências "silenciosas" e as consultas deixam semânticas-chave implícitas, uma única passagem de incorporação deve tanto raciocinar quanto comprimir, incentivando a correspondência espúria de características. Propomos uma estrutura centrada em dados que desacopla esses papéis, externalizando o raciocínio antes da recuperação. Usando um Modelo de Linguagem-Visão forte, tornamos a semântica implícita explícita, criando legendas densas para a evidência visual nas entradas do corpus, resolvendo referências multimodais ambíguas nas consultas e reescrevendo instruções verbosas em restrições de recuperação concisas. O aprimoramento apenas no momento da inferência é insuficiente; o recuperador deve ser treinado nessas representações semanticamente densas para evitar desvio de distribuição e explorar plenamente o sinal adicional. No M-BEIR, nosso método de treinamento aumentado por raciocínio produz ganhos consistentes sobre linhas de base fortes, com ablações mostrando que o aprimoramento do corpus beneficia principalmente consultas intensivas em conhecimento, enquanto o aprimoramento da consulta é crítico para pedidos de modificação composicional. Disponibilizamos publicamente nosso código em https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
Apresentamos a primeira formalização abrangente em Lean 4 da teoria da aprendizagem estatística (SLT) fundamentada na teoria dos processos empíricos. Nossa infraestrutura formal de ponta a ponta implementa os conteúdos ausentes na biblioteca mais recente do Lean 4 Mathlib, incluindo um desenvolvimento completo da concentração gaussiana lipschitziana, a primeira formalização do teorema da integral de entropia de Dudley para processos sub-gaussianos e uma aplicação à regressão por mínimos quadrados (esparsa) com uma taxa ótima. O projeto foi realizado usando um fluxo de trabalho colaborativo humano-IA, no qual humanos projetam estratégias de prova e agentes de IA executam a construção tática de provas, resultando na caixa de ferramentas para SLT em Lean 4 verificada por humanos. Além da implementação, o processo de formalização expõe e resolve pressupostos implícitos e detalhes ausentes nos livros didáticos padrão de SLT, impondo uma compreensão granular, linha por linha, da teoria. Este trabalho estabelece uma base formal reutilizável e abre as portas para desenvolvimentos futuros na teoria da aprendizagem de máquina. O código está disponível em https://github.com/YuanheZ/lean-stat-learning-theory.