Skip to content

Como se tornar um cientista de dados?

Iniciando minha jornada em Data Science após várias idas e vindas no assunto. Sempre tive muito interesse nessa área, mas nunca tive tempo nem motivação. Afirmo que foi mais falta de motivação que tempo, porque quando queremos algo de fato, encontramos tempo.

Hoje quando falamos em Data Science, nos vem à mente linguagens como R e Python. Obviamente, é possível utilizar outras linguagens das mais variadas possíveis, mas como estou iniciando nessa jornada, optei por utilizar o Python, uma vez que já tenho uma bagagem com essa linguagem. Opa! Comecei errado! Esquece esse negócio de linguagem de programação por enquanto. Antes de escolher a linguagem propriamente dita, ou ferramentas necessárias, é importante entender o que vem a ser Data Science e se você tem perfil adequado para essa longa jornada. Foi isso que fiz!

O que é Data Science?

Data Science (Ciência de Dados) é o estudo disciplinado dos dados e informações inerentes ao negócio e todas as visões que podem cercar um determinado assunto. É uma ciência que estuda as informações, seu processo de captura, transformação, geração e, posteriormente, análise de dados.

Legal! Se entendi bem, Data Science é um campo que abrange qualquer coisa relacionada à limpeza, preparação e análise de dados. Utilizando técnicas a fim de se extrair dados e obter insights através de informações.

Quais habilidades necessárias para se tornar um Data Scientist?

Fazendo um apanhado de várias fontes que fizeram pesquisas com os profissionais da área, as skills que achei interessante – não necessariamente nesta ordem – foram:

  • Comunicação;
  • Matemática;
  • Gestão de Projetos;
  • Data Mining e Visualização;
  • Design de Experimentos;
  • Gestão de Dados;
  • Modelagem estatística;
  • Desenvolvimento de negócios.

No gráfico a seguir você pode encontrar um detalhamento mais completo.

Habilidades cientista de dados

Atualmente eu trabalho na área que envolve desenvolvimento de software. E pensando nesses pontos, já consigo enxergar alguns fatores que me permitem um salto gigante nos meus estudos em busca de me tornar um cientista de dados.

Data Science

Para o professor da Escola de Matemática Aplicada da Fundação Getulio Vargas (FGV EMAp), Renato Souza, ele explica:

“O cientista de dados tem de saber programação, ser capaz de criar modelos estatísticos, ter conhecimento e domínio apropriado de negócios. Precisa também compreender as diferentes plataformas de Big Data e como elas funcionam. Se uma determinada empresa está na fase de estabilização de dados, esse profissional vai precisar se preocupar mais com a infra de dados, databases, códigos e processamento de dados que, de alguma forma, suportem as análises que virão pela frente. Se ele está em uma fase de entregar informação para executivos, vai precisar se preocupar com a tradução dos dados para tomada de decisão”

Esta explicação para mim já basta. Está perfeita! Já sabemos o que é e o que precisamos, agora é hora de organizar as ideias e definir a ordem e precedências dos temas de estudo. Mas antes…

O que faz um cientista de dados?

O principal objetivo de um cientista de dados é organizar e analisar grandes quantidades de dados. Quando falamos hoje em Data Science, mesclamos Big Data, Deep Learning e Machine Learning. Por este motivo, na prática, o cientista de dados pode trabalhar com várias técnicas e ferramentas. O trabalha tende a ser muito dinâmico porque envolvem vários vários tipos de análise, por exemplo:

  • Coletar grandes quantidades de dados não-estruturados e transformá-los em um formato mais utilizável;
  • Resolver problemas de negócios usando técnicas orientadas por dados;
  • Trabalhar com uma variedade de linguagens de programação, incluindo SAS, R e Python;
  • Ter uma sólida compreensão de estatística, incluindo testes e distribuições;
  • Estar sempre atualizado sobre técnicas analíticas, como machine learning, deep learning e análise de texto;
  • Comunicar e colaborar tanto com TI quanto com a galera de negócio;
  • Procurar por ordem e padrões nos dados, além de identificar tendências que podem ajudar no resultado financeiro de uma empresa.

Esses são alguns pontos.

No meu caso, por onde eu comecei a estudar?

O primeiro passo que eu fiz foi fazer uma autoavaliação, de forma muito crítica, para identificar as minhas forças e fraquezas. E no segundo momento eu fiz um agrupamento do que eu preciso dominar para poder fazer preparação de dados, reconhecimento de padrões e visualização de dados.

Analisando as grades dos cursos e materiais disponíveis, o que mais dificulta a assimilação do assunto, é a falta de uma base sólida em matemática. Eu antes de organizar esta iniciativa de formação em Data Science, confesso que “iniciei”(aleatoriamente) alguns cursos (grátis ou de baixo valor). Li alguns artigos, mas tudo superficialmente. Não pela qualidade do material, muito pelo contrário, são materiais muito bons, o que me faltou foi ter uma base melhor em matemática. Então, eu recomendo que voltemos um pouco ao passado e façamos os estudos mais aprofundados de matemática. Se você não tiver uma boa base em matemática, com certeza você vai desanimar em algum momento. Eu experimentei! E esse sentimento de frustração é péssimo!

Matemática e Estatística aplicada à data science: o que estudar?

Analisando o que já vi até agora nas grades dos cursos e treinamentos de Data Science, podemos nos aprofundar nos seguintes temas:

Álgebra Linear

Usado em Machine Learning e Deep Learning para entender como os algoritmos funcionam. Basicamente, é tudo sobre operações vetoriais, matriciais, tensoras, etc..

Cálculo

Usado trambém em Machine Learning e Deep Learning para formular as funções usadas para treinar algoritmos para alcançar seu objetivo.

Estatísticas e Probabilidade

Usado em Data Science  para analisar e visualizar dados, a fim de descobrir (inferir) insights.

Vejamos que a quantidade de assuntos que eu vou ter que me aprofundar é bastante vasto. Ai você pode pensar: -Nossa! É muita coisa! Vai demorar muito tempo! Por que você vai começar essa jornada em Data Science agora (março/2019)?

Vamos dar uma olhada na publicação  5 Trends Emerge in the Gartner Hype Cycle for Emerging Technologies, 2018. Dá uma olhada onde está Deep Learning – em 2018 ele prevê que vai estar super aquecido entre 2 à 5 anos. Ou seja, eu tenho 4 anos (é um tempo razoável)  para me aprofundar nessa área e me preparar para essa necessidade do mercado. É isso que tenho em mente!

Hype Cycle Gartner 2018

Se você quer saber se eu vou conseguir ou não esse objetivo, se inscreva no blog e venha sofrer junto comigo nessa jornada super difícil que é a carreira de cientista de dados.

Confiança Sempre!!!

Fontes:

Published inJornada Data Science

Be First to Comment

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *