Boosting Ridge para a máquina de aprendizagem extrema otimizada globalmente para problemas de classificação e regressão

Scientific Reports volume 13, Artigo número: 11809 (2023) Citar este artigo

191 Acessos

Detalhes das métricas

Este artigo explora a estrutura boosting ridge (BR) na comunidade Extreme Learning Machine (ELM) e apresenta um novo modelo que treina os alunos básicos como um conjunto global. No contexto de redes de camada oculta Extreme Learning Machine, os nós da camada oculta são pré-configurados antes do treinamento e a otimização é realizada nos pesos da camada de saída. A implementação anterior do conjunto BR com ELM (BRELM) como aprendizes básicos fixa os nós na camada oculta para todos os ELMs. O método de aprendizagem por conjunto gera diferentes coeficientes da camada de saída, reduzindo o erro residual do conjunto sequencialmente à medida que mais alunos básicos são adicionados ao conjunto. Como em outras metodologias de conjunto, os alunos básicos são selecionados até cumprirem critérios de conjunto, como tamanho ou desempenho. Este artigo propõe um método de aprendizagem global na estrutura BR, onde os alunos básicos não são adicionados passo a passo, mas todos são calculados em uma única etapa buscando o desempenho do conjunto. Este método considera (i) as configurações da camada oculta são diferentes para cada aluno base, (ii) os alunos base são otimizados todos de uma vez, não sequencialmente, evitando assim a saturação, e (iii) a metodologia ensemble não tem a desvantagem de trabalhar com classificadores fortes. Vários conjuntos de dados de referência de regressão e classificação foram selecionados para comparar este método com a implementação original do BRELM e outros algoritmos de última geração. Em particular, foram considerados 71 conjuntos de dados para classificação e 52 para regressão, utilizando diferentes métricas e analisando diferentes características dos conjuntos de dados, tais como o tamanho, o número de classes ou a natureza desequilibrada dos mesmos. Os testes estatísticos indicam a superioridade do método proposto tanto nos problemas de regressão quanto nos problemas de classificação em todos os cenários experimentais.

Na última década, Extreme Learning Machine (ELM)1 tornou-se uma metodologia popular em problemas desafiadores de Machine Learning, por exemplo, interfaces cérebro-computador2, a previsão da vida útil restante de rolamentos3, a detecção da origem da erva-doce que é de grande importância. importância na aromatização de alimentos4, na previsão de pneumonia por COVID-195, na classificação EGG para interface cérebro-computador6, na gestão da rede de água7 e na previsão da produção de trigo8, entre outros. As teorias ELM afirmam que os parâmetros da camada oculta, ou seja, o peso e o viés em redes feed-forward de camada oculta única, não precisam ser ajustados, mas podem ser gerados aleatoriamente, independentemente do conjunto de dados de treinamento9. Assim, apenas os pesos de saída são calculados em uma única etapa, empregando a solução estimada de mínimos quadrados. Devido a esta inicialização aleatória, a velocidade de treinamento do ELM é mais eficiente em comparação aos solucionadores tradicionais para redes neurais, por exemplo, aqueles baseados em retropropagação10,11, sem perder desempenho, e até mesmo melhorá-lo.

Uma das desvantagens dos modelos ELM é que ele requer um grande número de neurônios para a camada oculta porque a combinação não linear de recursos é explorada aleatoriamente . Devido a isso, vários métodos têm sido investigados para reduzir essa aleatoriedade sem aumentar o tempo de computação ou a complexidade do algoritmo, como poda13, otimização de enxame14,15 e métodos de aprendizagem por conjunto.

Neste contexto, vários métodos de conjunto para modelos ELM foram propostos, por exemplo, conjuntos para regressão16, conjuntos fuzzy para classificação de big data17, conjuntos profundos para previsão de séries temporais18, Meta-ELM incremental com feedback de erro19 ou conjuntos ELM de kernel ponderado para conjuntos de dados desequilibrados20. Além disso, muitos métodos de conjunto ELM foram aplicados a problemas do mundo real, como a previsão da altura das ondas oceânicas21, o reconhecimento da atividade humana22, a calibração da espectroscopia no infravermelho próximo23 ou o reconhecimento do canto dos pássaros24. Em geral, os conjuntos visam melhorar o erro de generalização usando uma mistura de classificadores ou regressores, conhecidos como alunos básicos na estrutura de aprendizagem em conjunto. A melhoria do desempenho está associada à diversidade entre os preditores de base, ou seja, é essencial para a generalização do conjunto que os alunos da base discordem o máximo possível25. Existem muitas maneiras de combinar previsões individuais. Assim, vários métodos de votação têm sido propostos para melhorar a eficiência destes conjuntos, como Bagging26, Boosting27, sistema de aprendizagem incremental utilizando especialistas lineares locais28 ou uma variação do Boosting construída a partir de um algoritmo funcional de descida de gradiente com a função de perda L229, entre outros. As metodologias de ensemble conhecidas como Bagging e Boosting são as abordagens mais utilizadas, principalmente pela facilidade de aplicação e pelo desempenho do conjunto30. A chave para essas metodologias de conjunto está nos dados de treinamento para gerar diversidade. Desta forma, diversas soluções para o problema de otimização associado aos preditores de base são implicitamente buscadas por meio de amostragem de dados31.