Glossário: fundamentos estatísticos e de pesquisa operacional em modelos de Machine Learning

O Machine Learning (ou aprendizado de máquina) é algo comumente discutido no ramo de Data Science, e os fundamentos estatísticos e de pesquisa operacional ganham cada vez mais espaço nas discussões pela sua relevância na obtenção de dados para análise e construção de modelos analíticos.

Pensando em trazer o tema para o Blog Next, nós conversamos com Marcos Santos, professor do MBA em Data Science e Analytics USP/Esalq, que nos deu uma entrevista recheada de conteúdos valiosos e que vão te convencer a começar ainda hoje seus estudos. Confira a entrevista abaixo!

Leia mais: Conheça o MBA em Data Science e Analytics USP/Esalq

Quais os principais fundamentos estatísticos de Machine Learning?

Santos: Para a correta compreensão e aplicação dos modelos de Machine Learning, são necessários alguns conceitos estatísticos fundamentais:

  • Tipos de variáveis:

    Qualitativas
    Variáveis que, normalmente, expressam categorias e não podem ser medidas, somente categorizadas ou contadas. Podem ser nominais (valores que expressam atributos, sem nenhum tipo de ordem) ou ordinais (valores que expressam atributos, porém com algum tipo de ordem, ou grau).

    Quantitativas
    São aquelas cujos valores são expressos por números e permitem o cálculo da média e da mediana, por exemplo. Dividem-se em variáveis contínuas e variáveis discretas.
  • Tabelas de frequência: Expressam a quantidade de ocorrências por categoria. Podem ser usadas para variáveis qualitativas (apresenta a quantidade de ocorrências para cada categoria) ou quantitativas (quantidade de ocorrências para cada valor discreto da variável ou categorização inicial por classes ou faixas para variáveis contínuas).
  • Medidas de posição: São utilizadas para representar, em um único número, o conjunto de dados observados da variável em estudo. Por exemplo:  Média, Mediana, Moda, Percentis, Quartis e Decis.
  • Medidas de dispersão: Indicam o grau de variação dos elementos de um conjunto numérico em relação a sua média. Por exemplo: Amplitude, Variância, Desvio Padrão, Erro Padrão e Coeficiente de Variação.
  • Medidas e forma: Mostram se uma distribuição de frequências tem características especiais, como simetria ou assimetria/curtose.
  • Testes estatísticos de relação/correlação entre variáveis: Visam analisar como uma variável se comporta em um cenário em que outra está variando, visando identificar se existe alguma relação entre a variabilidade de ambas. Ex.: Teste qui-quadrado (variáveis qualitativas) e Coeficiente de Correlação de Pearson (quantitativas).
  • Distribuições de probabilidades: São modelos matemáticos que relacionam um certo valor da variável em estudo com a sua probabilidade de ocorrência. Ex.: Para variáveis discretas: Uniforme; Bernoulli; Binomial; Binomial negativa; Poisson. Para variáveis contínuas: Normal; Qui-quadrado; t de Student; F de Snedecor.
  • Testes de hipóteses: Visa testar o parâmetro de interesse por meio de amostras. Ex.: Teste bilateral (bicaudal); Teste unilateral à esquerda; Teste unilateral à direita; Teste Z; Teste t; Teste Qui-quadrado; Teste F.
  • Amostragem: Tem o objetivo de selecionar uma amostra representativa da população. Com isso, o modelo é capaz de generalizar o comportamento da população.
  • Métricas de avaliação: Após a seleção e treinamento de um modelo, é necessário verificar seu desempenho em dados que não foram utilizados no treinamento. Assim, pode-se entender como o modelo irá se comportar com novas instâncias de dados. Portanto, medidas como recall, acurácia, precisão e f1-score permitem avaliar e comparar modelos.

Por que esses fundamentos estatísticos são importantes?

Santos: O arcabouço estatístico citado anteriormente é importante para a correta análise dos dados. Assim, é possível determinar os modelos estatísticos mais aderentes à determinada amostra, sendo possível identificar padrões ou correlações entre os dados. Esses passos fundamentais visam proporcionar uma correta utilização dos dados para realizar predições ou propor linhas de ação para resolver problemas reais.

Leia mais: Data Science descomplicado: 5 motivos para você começar hoje

pessoa trabalhando com seu notebook em fundamentos estatísticos e de pesquisa operacional
Entender fundamentos estatísticos e de pesquisa operacional é fundamental para quem deseja se destacar no mercado de trabalho.

Qual a relevância na prática? Pode nos dar exemplos?

Santos: Para que um projeto de Machine Learning tenha resultados práticos, ele precisa seguir procedimentos baseados em princípios estatísticos. Caso a amostragem não seja realizada corretamente, o modelo pode resultar em ‘vícios’, conhecidos como vieses.

A correta compreensão dos conceitos estatísticos permite ao analista escolher o melhor modelo para determinado tipo de amostra. Além disso, é possível analisar as correlações e verificar as variáveis que mais impactam no resultado. Esses ‘insights’ podem auxiliar o processo de tomada de decisão de diversas formas, como na priorização de determinado ativo em detrimento a outro que não apresente tanto retorno a determinada organização.

Dependendo da aplicação, a escolha de uma métrica inadequada de avaliação pode trazer resultados desastrosos, seja para um indivíduo ou para uma organização. Como exemplo, pode-se citar um medicamento que possua um alto grau de letalidade, mas que seja aplicável a uma doença específica. Em um caso como esse, é importante minimizar os falsos positivos, evitando que pessoas saudáveis recebam um medicamento que pode ser letal.

Além disso, o conhecimento desses conceitos básicos evita alguns erros graves, que prejudicam sobremaneira a análise de dados. Como por exemplo, o cálculo de médias e medianas de variáveis qualitativas como CEP e CPF.

Um notebook ligado com diversos códigos referentes aos fundamentos estatísticos e de pesquisa operacional na tela.
Os fundamentos estatísticos e de pesquisa operacional complementam o universo dos dados que, por sinal, estão presentes em todo lugar e em todo tempo.

O que é a Pesquisa Operacional? Qual sua função?

Santos: A Pesquisa Operacional, ou P.O., trabalha com modelos matemáticos visando o apoio à tomada de decisão. Alguns métodos da P.O. são conhecidos há séculos. Contudo, ela só ganhou um arcabouço metodológico consistente a partir da 2ª Guerra Mundial, haja vista que seus modelos analíticos passaram a ser utilizados em problemas logísticos de toda ordem. Com o fim das hostilidades em 1945, naturalmente os métodos da P.O. migraram para os demais setores produtivos da sociedade, dentro de uma perspectiva totalmente interdisciplinar. Considerando a diversidade de problemas e a variedade de modelos, a P.O. é composta por inúmeras subáreas, como:

  • Estatística
  • Programação Matemática
  • Apoio Multicritério à Decisão
  • Teoria dos Jogos
  • Simulação de Eventos Discretos
  • Teoria das Filas
  • Estatística
  • Teoria dos Grafos
  • Análise Envoltória de Dados
  • Meta-heurística
  • Lógica Fuzzy
  • Cadeias de Markov
  • Otimização Combinatória
  • Teoria das Restrições
  • Entre outras.”

Quais os resultados, para uma empresa, em aplicar fundamentos estatísticos e de Pesquisa Operacional em modelos de Machine Learning?

Santos: Modelos de Machine Learning são algoritmos computacionais capazes de ‘aprender’ a partir de uma massa de dados conhecida. Esses dados têm a função de ‘treinar o modelo’. Para ganhar forma, esses algoritmos precisam lançar mão dos métodos analíticos da Estatística e da Pesquisa Operacional. Assim, Computação, Estatística e Pesquisa Operacional passam a trabalhar de forma uníssona com um único objetivo: apoiar a tomada de decisão rapidamente, de maneira estruturada e assertiva.

E você, gostou de aprender mais sobre Data Science? Você já conhecia os fundamentos estatísticos e de pesquisa operacional em modelos de Machine Learning? Comente aqui embaixo e se inscreva no MBA em Data Science & Analytics USP/Esalq!

Você também pode gostar desses conteúdos:

Autor (a)

Compartilhar