Classificação em aprendizado de máquina: uma introdução
Classificação é o processo de prever a classe de determinados pontos de dados. As classes às vezes são chamadas de alvos, rótulos ou categorias. A modelagem preditiva de classificação é a tarefa de aproximar uma função de mapeamento (f) de variáveis de entrada (X) para variáveis de saída discretas (y).
Por exemplo, a detecção de spam em provedores de serviços de e-mail pode ser identificada como um problema de classificação. Esta é uma classificação binária, pois existem apenas duas classes marcadas como “spam” e “não spam”. Um classificador utiliza alguns dados de treinamento para entender como determinadas variáveis de entrada se relacionam com a classe. Nesse caso, e-mails conhecidos como spam e não spam devem ser usados como dados de treinamento. Quando o classificador é treinado com precisão, ele pode ser usado para detectar um email desconhecido.
A classificação pertence à categoria de aprendizagem supervisionada onde os alvos também são fornecidos com os dados de entrada. A classificação pode ser aplicada a uma ampla variedade de tarefas, incluindo aprovação de crédito, diagnóstico médico e marketing direcionado, etc.
Existem dois tipos de alunos na classificação – alunos preguiçosos e alunos ansiosos.
Alunos preguiçosos armazenam os dados de treinamento e esperam até que os dados de teste apareçam. Quando isso acontece, a classificação é conduzida com base nos dados de treinamento armazenados mais relacionados. Em comparação com alunos ansiosos, os alunos preguiçosos gastam menos tempo de treinamento, mas mais tempo fazendo previsões.
Exemplos:K-vizinho mais próximo e raciocínio baseado em casos.
Alunos ansiosos constroem um modelo de classificação com base nos dados de treinamento fornecidos antes de receber os dados para classificação. Deve ser capaz de se comprometer com uma única hipótese que cubra todo o espaço de instâncias. Por causa disso, alunos ávidos levam muito tempo para treinar e menos tempo para fazer previsões.
Exemplos:Árvore de decisão, Bayes ingênuo e redes neurais artificiais.
Mais sobre aprendizado de máquina: os 10 principais algoritmos de aprendizado de máquina que todo iniciante deve conhecer
Existem muitos algoritmos de classificação para escolher. A escolha do caminho certo depende da aplicação e da natureza do conjunto de dados disponível. Por exemplo, se as classes forem linearmente separáveis, classificadores lineares como regressão logística e discriminante linear de Fisher podem superar modelos sofisticados e vice-versa.
Uma árvore de decisão constrói modelos de classificação ou regressão na forma de uma estrutura em árvore. Ele utiliza um conjunto de regras “se-então” que é mutuamente exclusivo e exaustivo para classificação. As regras são aprendidas sequencialmente usando os dados de treinamento, um de cada vez. Cada vez que uma regra é aprendida, as tuplas abrangidas pelas regras são removidas. Este processo continua até que uma condição de encerramento seja atendida.
A árvore é construída de cima para baixo, recursivamente, de maneira dividida e conquistada. Todos os atributos devem ser categóricos. Caso contrário, devem ser discretizados antecipadamente. Os atributos no topo da árvore têm maior impacto na classificação e são identificados através do conceito de ganho de informação.
Uma árvore de decisão pode ser facilmente ajustada demais, gerando muitas ramificações e pode refletir anomalias devido a ruídos ou valores discrepantes. Um modelo superajustado resulta em desempenhos muito ruins nos dados não vistos, embora apresente um desempenho impressionante nos dados de treinamento. Você pode evitar isso com a pré-poda, que interrompe a construção da árvore mais cedo, ou através da pós-poda, que remove os galhos da árvore totalmente crescida.
Naive Bayes é um classificador probabilístico inspirado no teorema de Bayes sob a suposição de que os atributos são condicionalmente independentes.
A classificação é realizada derivando o máximo posterior, que é o máximo P(Ci|X), com a suposição acima aplicando-se ao teorema de Bayes. Essa suposição reduz muito o custo computacional contando apenas a distribuição de classes. Embora a suposição não seja válida na maioria dos casos, uma vez que os atributos são dependentes, surpreendentemente, o ingênuo Bayes é capaz de ter um desempenho impressionante.
Naive Bayes é um algoritmo simples de implementar e pode produzir bons resultados na maioria dos casos. Ele pode ser facilmente dimensionado para conjuntos de dados maiores, pois leva tempo linear, em vez da dispendiosa aproximação iterativa que outros tipos de classificadores usam.