Pergudangan Data

Lecture 1: Pengantar Modern Pergudangan Data

Lecturer: Ardika Satria | Scribes: Catatan Kuliah

Daftar Isi

Pendahuluan
Tokoh dan Prinsip Dasar
Pendekatan Kimball dan Inmon
Data Vault sebagai Evolusi Modern
Evolusi Era 2000–Sekarang

Indikator

Memahami konsep dasar dan prinsip-prinsip gudang data modern.
Menganalisis perbedaan model data dan arsitektur gudang data (Kimball, Inmon, EDW, ODS, Data Mart).
Menjelaskan alur ETL/ELT serta peran Business Intelligence dalam pemanfaatan gudang data.
Mengevaluasi peran metadata dan kualitas data dalam menjaga konsistensi serta kepercayaan pengguna.

1. Pendahuluan

Pada dekade 1980–1990-an, organisasi menghadapi ledakan data dari berbagai aplikasi operasional.
Informasi bisnis yang sebelumnya dapat dipantau dengan mudah melalui catatan atau laporan sederhana,
semakin terpecah dan terjebak di berbagai sistem yang tidak saling terhubung.
Untuk menjawab tantangan tersebut, muncullah Decision Support Systems (DSS)
yang berfungsi menyajikan laporan terstruktur bagi manajer dan eksekutif.
Namun, DSS tradisional hanya mampu memberikan gambaran per bidang bisnis, tanpa integrasi lintas fungsi.

Definisi

Decision Support System (DSS) —
Sebuah sistem yang menyediakan laporan dan analisis untuk membantu proses pengambilan keputusan manajerial.
DSS menjadi cikal bakal lahirnya konsep gudang data modern.

1.1 Tokoh dan Prinsip Dasar

Situasi ini melahirkan konsep gudang data (data warehouse),
sebuah arsitektur yang menyatukan data dari berbagai aplikasi ke dalam satu repositori yang konsisten.
Dua tokoh penting, Ralph Kimball dan Bill Inmon,
merumuskan prinsip-prinsip yang hingga kini menjadi fondasi gudang data modern, seperti:
subject orientation, integration, nonvolatility, time-variant,
one version of the truth, serta long-term investment.

1.2 Pendekatan Kimball dan Inmon

Kimball (Bottom-up / Dimensional Modeling)
Memulai dari kebutuhan analitik bisnis.
Membangun Data Marts per-subjek dengan model Star Schema,
lalu mengintegrasikan Data Marts menjadi gudang data terpadu.
Kelebihan: cepat memberikan hasil, mudah dipahami pengguna bisnis.
Inmon (Top-down / 3NF Modeling)
Memulai dari perspektif enterprise.
Membangun Enterprise Data Warehouse (EDW) terpusat dengan model Third Normal Form,
lalu menurunkan data ke Data Marts khusus.
Kelebihan: data lebih konsisten, sesuai kebutuhan enterprise jangka panjang.

Contoh

Pendekatan Kimball cocok untuk perusahaan ritel yang membutuhkan laporan cepat per kategori penjualan.
Sementara pendekatan Inmon lebih tepat untuk lembaga keuangan besar yang mengutamakan konsistensi data lintas divisi.

1.3 Data Vault sebagai Evolusi Modern

Selain Kimball dan Inmon, muncul pula paradigma Data Vault
yang diperkenalkan oleh Dan Linstedt pada akhir 1990-an.
Data Vault dirancang untuk fleksibilitas dan skalabilitas di era big data,
dengan membagi model data menjadi:

Hub: entitas inti bisnis (misal pelanggan, produk).
Link: hubungan antar entitas (misal transaksi pelanggan–produk).
Satellite: atribut deskriptif dan histori perubahan yang melekat pada Hub atau Link.

Pendekatan ini memudahkan adaptasi terhadap perubahan struktur data dan memperkuat jejak historis.

1.4 Evolusi Era 2000–2020 dan 2020–Sekarang

Era 2000–2020: Gudang Data Tradisional hingga Modern Awal

Fokus pada Enterprise Data Warehouse (EDW) sebagai repositori pusat.
Perdebatan utama: Kimball (Star Schema, Data Marts) vs
Inmon (3NF, Corporate Information Factory).
Arsitektur tiga komponen: EDW, Data Mart, dan Operational Data Store (ODS).
Pemrosesan data berbasis ETL batch (harian/mingguan).
Teknologi populer: Teradata, Oracle DW, Microsoft SQL Server, IBM DB2.
Penggunaan OLAP cube untuk analisis multidimensi.

Era 2020–Sekarang: Gudang Data Modern dan Cloud-Native

Peralihan ke Cloud Data Warehouse (Snowflake, BigQuery, Redshift, Synapse).
Integrasi dengan Data Lakehouse (Databricks, Delta Lake, Apache Iceberg).
Pergeseran ETL menjadi ELT dan pemrosesan real-time streaming.
Konsep Data Mesh dan Data Fabric untuk arsitektur terdistribusi.
Integrasi AI/ML langsung pada gudang data untuk analitik prediktif.
Adopsi DataOps dan MLOps untuk pipeline data berkelanjutan.

Gambar 1. Alur umum gudang data modern: dari sumber data hingga BI Reporting.

Secara umum, alur kerja gudang data dapat digambarkan seperti pada gambar di atas.
Data berasal dari berbagai operational applications sebagai source data,
lalu masuk ke tahap data acquisition and integration melalui proses ETL/ELT.
Selanjutnya, data disimpan dalam relational database pada lapisan database design,
yang membentuk inti repositori gudang data.
Kualitas data dijaga oleh data quality repository,
sedangkan konteks dan definisinya didukung oleh metadata repository.
Pada tahap akhir, data dimanfaatkan melalui BI reporting yang menyediakan laporan baku, laporan interaktif,
dan analisis multidimensi berbasis OLAP bagi pengguna bisnis.

Pendahuluan ini menunjukkan bahwa konsep modern gudang data berkembang dari kebutuhan integrasi DSS,
diformulasikan oleh Kimball dan Inmon, kemudian berevolusi dengan Data Vault, serta kini memasuki era cloud, big data, dan AI.
Gudang data modern tidak lagi sekadar repositori historis, tetapi menjadi fondasi strategis untuk analitik real-time dan
pengambilan keputusan berbasis data.