Sobre a Formação

Domine as técnicas de preparar, coletar, analisar e processar grandes volumes de dados e use-os de forma estratégica ao extrair insights significativos nas melhores tomadas de decisões para seus negócios com uso de tecnologias de Inteligência Artificial atualmente empregadas na Indústria 4.0.

Esteja pronto para a nova economia digital e para as oportunidades do mercado. O que ninguém ensina nos cursos tradicionais, você aprende aqui. Adquira todo embasamento teórico e prático para atuar com autonomia e segurança.

A tomada de decisões orienta a direção e o desenvolvimento das empresas. Os responsáveis por esse processo devem estar capacitados para realizá-lo com confiança, usando ferramentas e dados que eliminem o acaso e garantam o sucesso. A Ciência de Dados (Data Science), ramo da Inteligência Artificial, foi criado para ajudar a responder a essa necessidade - ser a tecnologia na tomada de decisões.

Venha conhecer os recursos de Inteligência Artificial e capacidade para implementar outras estruturas computacionais de modo 100% EaD e assíncrono.

O curso foi desenvolvido com metodologia Hands On - "mão na massa" ou "aprender fazendo".

É totalmente prático, com teoria complementar e tópicos que, durante todo processo de ensino, os alunos são desafiados em uma série de cenários cada vez mais complexos, uma intensa experiência imersiva em linguagem de programação (python) extremamente aplicável a situações do mundo real.

Desenvolva-se no mundo da Inteligência Artificial com a Formação Ciência de Dados (Data Science).

Informações Gerais

Início do Curso

Imediato após a confirmação do pagamento

Nível

Do Iniciante ao Avançado

Carga Horária

400 horas

Modalidade

100% EaD (online), formato autoinstrucional

Duração

Acesso por 12 meses após a matrícula

Certificado

Aproveitamento mínimo de 60% para certificação

O que você vai aprender

Introdução à Ciência de Dados - Uso de vetores, matrizes e dicionários:

Criar vetores ou matrizes
Criar matrizes esparsas
Redimensionar array "Numpy"
Converter dicionários em matrizes
Inverter matriz ou "nArray"
Calcular diagonal da matriz
Calcular determinante de uma matriz
Transformar matriz em vetor
Calcular: média, desvio padrão e variância
Encontrar classificação de uma matriz (rank)
Máximos e mínimos de uma matriz
Adicionar valor numérico a um elemento de matriz
Calcular produto de dois (02) vetores
Adicionar, subtrair, multiplicar e dividir – valor numérico para cada elemento da matriz
Adicionar e subtrair entre duas (02) matrizes
Ler características de um dicionario

Pré-Processamento de Dados - Representação e a qualidade dos dados:

Carregar e trabalhar dados via sklearn (dataset Boston)
Criar dados simulados para regressão
Criar dados simulados para classificação
Criar dados simulados para armazenamento em cluster
Preparar um fluxo de trabalho de aprendizado de máquina
Converter recursos (características) categóricos em recursos numéricos
Imputar rótulos de classes ausentes
Imputar rótulos de classes ausentes usando método "vizinho próximo"
Excluir instâncias com valores ausentes
Como fazer operações numéricas
Como encontrar outliers
Codificar recursos categóricos ordinais
Lidar com classes de desequilíbrio com redução da resolução
Como lidar com classes de desbalanceadas
Como lidar com outliers
Imputar valores ausentes com médias
Codificação com vários rótulos
Codificação com recursos nominais categóricos
Processar recursos categóricos
Redimensionar recursos
Padronizar recursos
Padronizar dados "IRIS"
Dividir dados DateTime ("features") para criar vários recursos
Calcular a diferença entre datas
Codificar os dias da semana
Tratar valores ausentes em uma série temporal
Como introduzir o tempo "LAG" (lagged time-series)
Como lidar com "Janelas de Tempo"
Selecionar DateTime dentro de um intervalo
Selecionar DateTime [formato (PM) ou (AM)] dentro de um intervalo
Como trabalhar itens em uma lista

Análise de Dados:

Análise de Componentes Principais (PCA)
Análise da Variância (ANOVA)
Curva Característica de Operação do Receptor (Curva ROC)
Trabalhar os Hiperparâmetros
Descrever a relação entre uma variável Y e uma X
Uso da biblioteca "Seaborn"

Classificação, Clusterização e Regressão:

Criar e otimizar modelo para regressão e classificação
Utilizar "Nearest Neighbours" para regressão e classificação
Fazer agrupamento aglomerativo (Agglomerative Clustering)
Fazer clusterização com o "Kmeans"
Fazer clusterização baseado em afinidade
Utilizar "DBSCAN Clustering"
Utilizar a abordagem do deslocamento médio (MinShift)
Utilizar a arvore de classificação e regressão
Utilizar algoritmo de aprendizado de máquina "AdaBoost"
Utilizar algoritmo de aprendizado de máquina "RandomForest"
Utilizar algoritmo de aprendizado de máquina "GradientBoosting"
Utilizar classificador e regressor multicamadas – "MLP - Multi Layer Perceptron"
Utilizar classificador e regressor de reforço gradual "XgBoost"
Utilizar classificador e regressor "CatBoost"
Utilizar classificador e regressor "LightGBM"
Utilizar classificador e regressor "SVM"
Classificar com modelos lineares – "Multiclass Classification"
Classificar com modelos lineares – "Naive Bayes"
Classificar com modelos lineares – "Nearest Neighbors"
Classificar com modelos lineares – "LDA e QDA"
Classificar com modelos lineares – "Tree Model"
Classificar com modelos lineares – "Ensemble Bagging Model"
Classificar com modelos lineares – "Ensemble Boosting Model"
Utilizar métrica de classificação e regressão
Comparar algoritmos de classificação
Implementar "Ensemble Model"
Salvar modelos treinados
Avaliar modelos com curvas de aprendizagem
Paralelizar execução e validação cruzada no "XGBoost"
Otimizar número de árvores no "XGBoost"

Visualização de Dados:

Autocorrelação (ACF) e Autocorrelação Parcial (PACF)
Pizza com destacamento
Plotagem de textos
Divergências de escala
Densidade
Series temporais múltiplas com escalas
Boxplot
Correlograma – "Correllogram"
Curvas de densidade – "Cross Correlation"
Decomposição de serie temporal
Dispersão com linha de regressão linear de melhor ajuste
Área
Barras
Bolha – "Bubble"
Cascata- "Waterfall"
Lotes em par – "Pairwise"
Histograma empilhado
Variáveis continuas (Histograma)
Histogramas marginais – "Marginal Boxplot"
Quadro de marcadores – "Lollipop"
Piramide populacional
Diagramas de dispersão – "Scatter"
Anotações de picos e vales em series temporais
Cilindros – "Cylinder"
Feixes sólidos – "Joy"
Dado sazonal

Projetos práticos (casos de uso) do nível iniciante ao avançado com bases de dados públicas - Kaggle:

Análise de Buscas Google
Análise de Mobilidade Urbana
Análise de densidade Populacional
Análise de Chefes de Estado
Análise da Taxa de Natalidade
Análise de Resumo de Texto
Análise de Anotacoes em Texto
Análise de Digitos Manuscritos
Análise de Reconhecimento Facial
Análise de Histograma Gradientes (HOG)
Análise da Detecção de Email Spam
Análise de Predição de Doença
Análise de Desempenho Estudantil
Análise de Desempenho Esportivo

Projeto Final:

Carregar as Bibliotecas de trabalho (todas que se fizerem necessárias)
Carregar os conjuntos de dados com sua biblioteca de preferência p/ o algoritmo de Aprendizagem de Máquina a ser aplicado (de arquivo CSV ou Base de Dados)
Sumarizar os dados carregados para compreender o conjunto das informações - "dataset" (uso de Estatística Descritiva)
Visualizar os dados para compreender o conjunto das informações – "dataset" (criar gráficos variados, conforme o negócio)
Preprocessar os dados, aplicar limpeza e transformação - "Data Cleaning & Data transformation" (o "dataset" deve ser dividido em conjuntos de dados de "treino & teste")
Utilizar um algoritmo de aprendizado ao conjunto de dados de treino (configurar algoritmo, aplicar validação cruzada, treinar e ajustar, avaliar e persistir o modelo)
Finalizar o modelo treinado e fazer a previsão

Pré-requisitos

Conhecimentos em linguagem de programação python.

Público-alvo

Iniciantes em programação, estudantes ou profissionais de tecnologia, como também todos os profissionais que tenham interesse nas trilhas de Inteligencia Artificial, na área da Ciência de Dados.

Como Funciona

Horário flexível de estudo de acordo com sua disponibilidade
Material didático disponibilizado na plataforma (conteúdo apostilado, vídeos e ilustrações)
Acesso ao Portal IA-Labs após a matrícula
Para concluir: estudo do material e questionário base "Quizz" com desempenho mínimo de 60%
Certificado enviado por e-mail em até 5 dias após a conclusão

O que é Ciência de Dados?

Ciência de dados (Data Science) é uma área interdisciplinar, que localiza-se em uma interface entre a estatística e a ciência da computação, que utiliza o método científico; processos, algoritmos e sistemas, para extrair conhecimento e tomar decisões a partir de dados dos diversos tipos, sendo eles ruidosos, nebulosos, estruturados ou não-estruturados. Sendo assim uma área voltada para o estudo e a análise organizada de dados científicos e mercadológicos, financeiros, sociais, geográficos, históricos, biológicos, psicológicos, dentre muitos outros.

Qual a importância da Ciência de Dados?

Visa, desde modo, a extração de conhecimento, detecção de padrões e/ou obtenção de insights para possíveis tomadas de decisão. Ciência de dados enquanto campo existe há 30 anos, porém ganhou mais destaque nos últimos anos devido a alguns fatores como o surgimento e popularização de grandes bancos de dados e o desenvolvimento da Inteligência Artificial.

Cientistas de Dados podem trabalhar no setor privado, por exemplo, transformando grande quantidade de dados brutos em insights de negócios, auxiliando empresas em tomadas de decisões para atingir melhores resultados ou na academia e terceiro setor como pesquisadores quantitativos interdisciplinares; bem como na Indústria 4.0.

Qual sua relação com Inteligência Artificial?

Há uma forte relação da área da ciência de dados com a inteligência artificial, uma vez que o principal profissional que lida com o desenvolvimento, manutenção e fiscalização de inteligências artificiais e machine learning são cientistas de dados.