DataOps
Идет набор на курс!
Срок обучения
16 занятий
Стоимость:
Стоимость за весь курс
10 500 грн.
Описание

DataOps Engineer — это специалист, который работает на стыке Data Engeneering (db engeneers, bi engeneers, big data engeneers), DevOps (devops engeneers) и Data Science (data sientists, AI/ML engeneers).
Современные системы программного обеспечения требуют обработки все больших объемов данных, все большей скорости обработки и интеграций между множеством систем.
Цель курса: Углубить и расширить понимание роли и задач DataOps в современных проектах.
Курс поможет вам:
- Закрепить понятия проектирования систем данных
- Разобраться с technology tools
- Познакомиться и разобраться с Data Analysis, Data Science, Data Governance, Data Quality с точки зрения данных
Курс рассчитан на опытных db/bi разработчиков, хорошо знакомых с SQL и желающих углубить свои знания в DataOps.
Дни недели занятий | на выбор |
---|---|
Время занятий | на выбор |
Занятий в неделю | 1 |
Длительность занятия | |
Часы занятий | |
Группы | |
Возраст аудитории | Студенты, Взрослые |
Вид подготовки | Базовый курс |
Город | Соборный |
Преподаватель | специалист-практик |
Учебные материалы | |
Пробное занятие | |
Документ об окончании | Сертификат |
Опции | Групповые занятия, Индивидуальное обучение |
Трудоустройство | Нет |
Условия трудоустройства |
Запись на курс
Программа обучения
1.Introduction. What is DataOps
- What is data?
- Structured and unstructured data
- Big Data: 5 V (volume, variety, velocity, verbosity, value)
- World trends of collecting and processing data
- What is Data Analysis, Data Science, Data Governance, Data Quality
- ML and AI in terms of data
- Data + Operations = DataOps
2.Data Storage: RDBMS systems
- Conceptual, logical, physical models
- Codde’s rules to RDBMS
- Basic concepts: Tables, attributes, relationships, keys, constraints understanding
- Normalization (1,2,3 forms; 3.5 and 4 forms )
- ACID: Transactions
- Isolation Levels
3.Data Storage: RDBMS Performance optimization techniques
- What to check? Where to look? What to take into account?
- “Read the query”: execution plans
- Common best practices and quick wins
4.Data Storage: Warehouses
- Normalization Vs Denormalization
- Kimball vs Inmon approaches
- 4 step Kimball approach to build warehouse
- Granularity
- Facts
- Dimensions
- Natural Vs Surrogate keys
- Star and Snowflake schemas
- Data Marts
5.Data Storage: Warehouses. Facts
- Different types of fact tables:
- Additive facts, semi-additive, non-additive facts
- Conformed Facts
- Factless Facts
- Transaction Facts
- Snapshot Facts
- Cumulative/Consolidated Facts
6.Data Storage: Warehouses. Dimensions
- Different types of dimensions:
- Conformed dimension
- Degenerated dimension
- Junk dimension
- SCD
2. Date and Time dimensions
7.Data Storage: NoSQL
- CAP theorem
- BASE transactions
- ACID vs BASE transactions
- Overview of NoSQL main categories
8.Data Storage: NoSQL.
- Key-values databases
- Hadoop and MapReduce
9.Data Storage: NoSQL.
- Column-oriented databases
- Document-oriented
10.Data Storage: NoSQL.
- Full-text search systems
- Graph databases
11.Data Storage: NoSQL
- In-memory databases
- Scaling in NoSQL world: partitioning and sharding
12.Data Storage: Unstructured data
- How to collect:
- Blobs
- Data Lakes
- Buckets
2. How to process:
- Video
- Audio
- Images
13.Data Collecting: ETL
- Extract, Transform, Load
- Extract, Load, Transform
- Batches vs Row-by-row
- Good and bad patterns
- Data extraction methods
- Data loading methods
14.Data Collecting: ETL. Tools
- SSIS
- Talend
- Informatica
- Pentaho
15.Data Collecting: Streaming
- What is streaming?
- Types of streaming
- Good and bad patterns
- Spark Streaming
- Flink
- Storm
- Kafka Streams
16.Cloud data services. Azure
- Relational data services: SQL Database
- SQL Data Warehouse
- Azure Storage
- Azure Data Lake
- Streaming Services
- NoSQL: CosmosDB
17.Cloud data services. Google
- Relational data services: CloudSQL
- Big Query
- Google Storage
- Streaming Services
- NoSQL: BigTable, Spanner
18.Cloud data services. Amazon
- Relational data services: RDS
- Redshift
- Amazon Storage: S3
- Streaming Services: Kinesis
- NoSQL: DynamoDB
- Comparison: DynamoDB vs CosmosDB vs Spanner
- Comparison: Redshift vs SQL Data Warehouses vs Big Query
19.Data transformations tools
- SQL scripts
- Azure: Databricks
- Google: DataPrep, DataFlow
- Amazon
20.Data processing and preparation
- Basics of ML
- Populate missing values
- Anomaly detections
- Feature building
21.Data Management
- What, why and how?
- What is metadata?
- Data Governance
- Data Standardization
- Data Quality
22.Data Security
- What is sensitive data?
- HIPAA, GDPR and others
- Sync and async encryptions
- Encryption at rest
- Encryption at transit
- Data discovery and classification
- Labeling and Data Visibility
23.Continuous integration and Continuous Delivery
- What is CI?
- What is CD?
- CI with Data-related projects: deploy changes to structures
- CI with Data-related projects: deploy changes to data
- Data and CI: common difficulties
Курс проводитHillel, комп'ютерна школа (Дніпро)
Адрес:
- г. Днепр, ул. Павла Ниринберга, 10 (1-й этаж)