DataOps

Йде набір на курс!

Срок обучения

16 занятий

Стоимость:

Стоимость за весь курс

10 500 грн.

Опис

DataOps Engineer — это специалист, который работает на стыке Data Engeneering (db engeneers, bi engeneers, big data engeneers), DevOps (devops engeneers) и Data Science (data sientists, AI/ML engeneers).

Современные системы программного обеспечения требуют обработки все больших объемов данных, все большей скорости обработки и интеграций между множеством систем.

Цель курса: Углубить и расширить понимание роли и задач DataOps в современных проектах.

Курс поможет вам:

Закрепить понятия проектирования систем данных
Разобраться с technology tools
Познакомиться и разобраться с Data Analysis, Data Science, Data Governance, Data Quality с точки зрения данных

Курс рассчитан на опытных db/bi разработчиков, хорошо знакомых с SQL и желающих углубить свои знания в DataOps.

Дни недели занятий	на вибір
Время занятий	на выбор
Занятий в неделю	1
Длительность занятия
Часы занятий
Группы
Возраст аудитории	Студенты, Взрослые
Вид подготовки	Базовый курс
Город	Соборный
Преподаватель	фахівець-практик
Учебные материалы
Пробное занятие
Документ об окончании	Сертификат
Опции	Групповые занятия, Индивидуальное обучение
Працевлаштування	Ні
Условия трудоустройства

Запись на курс

Програма навчання

1.Introduction. What is DataOps

What is data?
Structured and unstructured data
Big Data: 5 V (volume, variety, velocity, verbosity, value)
World trends of collecting and processing data
What is Data Analysis, Data Science, Data Governance, Data Quality
ML and AI in terms of data
Data + Operations = DataOps

2.Data Storage: RDBMS systems

Conceptual, logical, physical models
Codde’s rules to RDBMS
Basic concepts: Tables, attributes, relationships, keys, constraints understanding
Normalization (1,2,3 forms; 3.5 and 4 forms )
ACID: Transactions
Isolation Levels

3.Data Storage: RDBMS Performance optimization techniques

What to check? Where to look? What to take into account?
“Read the query”: execution plans
Common best practices and quick wins

4.Data Storage: Warehouses

Normalization Vs Denormalization
Kimball vs Inmon approaches
4 step Kimball approach to build warehouse
Granularity
Facts
Dimensions
Natural Vs Surrogate keys
Star and Snowflake schemas
Data Marts

5.Data Storage: Warehouses. Facts

Different types of fact tables:
Additive facts, semi-additive, non-additive facts
Conformed Facts
Factless Facts
Transaction Facts
Snapshot Facts
Cumulative/Consolidated Facts

6.Data Storage: Warehouses. Dimensions

Different types of dimensions:
Conformed dimension
Degenerated dimension
Junk dimension
SCD

2. Date and Time dimensions

7.Data Storage: NoSQL

CAP theorem
BASE transactions
ACID vs BASE transactions
Overview of NoSQL main categories

8.Data Storage: NoSQL.

Key-values databases
Hadoop and MapReduce

9.Data Storage: NoSQL.

Column-oriented databases
Document-oriented

10.Data Storage: NoSQL.

Full-text search systems
Graph databases

11.Data Storage: NoSQL

In-memory databases
Scaling in NoSQL world: partitioning and sharding

12.Data Storage: Unstructured data

How to collect:
Blobs
Data Lakes
Buckets

2. How to process:

Video
Audio
Images

13.Data Collecting: ETL

Extract, Transform, Load
Extract, Load, Transform
Batches vs Row-by-row
Good and bad patterns
Data extraction methods
Data loading methods

14.Data Collecting: ETL. Tools

SSIS
Talend
Informatica
Pentaho

15.Data Collecting: Streaming

What is streaming?
Types of streaming
Good and bad patterns
Spark Streaming
Flink
Storm
Kafka Streams

16.Cloud data services. Azure

Relational data services: SQL Database
SQL Data Warehouse
Azure Storage
Azure Data Lake
Streaming Services
NoSQL: CosmosDB

17.Cloud data services. Google

Relational data services: CloudSQL
Big Query
Google Storage
Streaming Services
NoSQL: BigTable, Spanner

18.Cloud data services. Amazon

Relational data services: RDS
Redshift
Amazon Storage: S3
Streaming Services: Kinesis
NoSQL: DynamoDB
Comparison: DynamoDB vs CosmosDB vs Spanner
Comparison: Redshift vs SQL Data Warehouses vs Big Query

19.Data transformations tools

SQL scripts
Azure: Databricks
Google: DataPrep, DataFlow
Amazon

20.Data processing and preparation

Basics of ML
Populate missing values
Anomaly detections
Feature building

21.Data Management

What, why and how?
What is metadata?
Data Governance
Data Standardization
Data Quality

22.Data Security

What is sensitive data?
HIPAA, GDPR and others
Sync and async encryptions
Encryption at rest
Encryption at transit
Data discovery and classification
Labeling and Data Visibility

23.Continuous integration and Continuous Delivery

What is CI?
What is CD?
CI with Data-related projects: deploy changes to structures
CI with Data-related projects: deploy changes to data
Data and CI: common difficulties

Курс проводитHillel, комп'ютерна школа (Дніпро)

Адрес:

м. Дніпро, вул. Павла Нірінберга, 10 (1-й поверх)