Data Analytics နဲ့ ပတ်သတ်တဲ့ Interviews တွေမှာ အမေးအများဆုံးဖြစ်တဲ့ အကြောင်းအရာတစ်ခုကတော့ ETL ဆိုတာ ပါပဲ။
Data Analytics နဲ့ ပတ်သတ်တဲ့ Interviews တွေမှာ အမေးအများဆုံးဖြစ်တဲ့ အကြောင်းအရာတစ်ခုကတော့ ETL ဆိုတာ ပါပဲ။
သူ့ရဲ့ အပြည်အစုံကတော့ Extract, Transform, Load ဖြစ်ပါတယ်။ တစ်နည်းအားဖြင့် ပြောရရင် Data တွေ ကို တစ်နေရာကနေ နောက်တစ်နေရာကို ကူးပြောင်းတဲ့ Flow တစ်ခု (ဒါမှမဟုတ်) Data Pipeline တစ်ခုလို့ အကြမ်းဖျဉ်အားဖြင့် အလွယ်မှတ်ယူလို့ရပါတယ်။ Pipeline လုပ်ရင်းနဲ့ Data Cleaning Process တွေကိုပါ တစ်ခါတည်း လုပ်ဆောင်ကြရပါတယ်။ Data သမားတိုင်း သိထားသင့်တဲ့အချက်ဆိုရင်လည်း မမှားပါဘူး။
သူ့ရဲ့ အပြည်အစုံကတော့ Extract, Transform, Load ဖြစ်ပါတယ်။ တစ်နည်းအားဖြင့် ပြောရရင် Data တွေ ကို တစ်နေရာကနေ နောက်တစ်နေရာကို ကူးပြောင်းတဲ့ Flow တစ်ခု (ဒါမှမဟုတ်) Data Pipeline တစ်ခုလို့ အကြမ်းဖျဉ်အားဖြင့် အလွယ်မှတ်ယူလို့ရပါတယ်။ Pipeline လုပ်ရင်းနဲ့ Data Cleaning Process တွေကိုပါ တစ်ခါတည်း လုပ်ဆောင်ကြရပါတယ်။ Data သမားတိုင်း သိထားသင့်တဲ့အချက်ဆိုရင်လည်း မမှားပါဘူး။
Data Analyst သမား အများစုက တကယ့် လက်တွေ့ လုပ်ငန်းခွင်မှာ အလုပ်လုပ်တဲ့အခါ Data sources တွေ က အများကြီး ရှိနိုင်ပါတယ်။ Applications တွေရဲ့ Database တွေကနေ ဆွဲယူကြရသလို Manual Flat Files (Excel, CSV, JSON, etc.) အပြင် အခု နောက်ပိုင်းမှာဆိုရင် Parquest VS AVRO တို့လို Complex Data Types တွေကနေယူပြီး လုပ်ဆောင်ကြပါတယ်။ အဲဒီလို Multiple Data Sources ကနေ ဆွဲယူတာကို Extraction လို့ ခေါ်ပါတယ်။ အဲ့ဒီမှာ ကိုယ်သုံးတဲ့ Platform ပေါ်မူတည်ပြီး အခေါ်အဝေါ်တွေ အများကြီးကွဲသွားပါတယ်။ Microsoft Platform မှာဆိုရင် Data Integration Tool ဖြစ်တဲ့ SSIS ကနေ ယူပြီး သုံးနိုင်သလို ကိုယ် က SQL Expert တစ်ယောက်ဆိုရင် SQL က နေလည်း ယူသုံးလို့ရပါတယ်။ Microsoft Azure Cloud မှာဆိုရင် Data Factory, Azure Synapse Analytics တို့ကို သုံးလို့ရပါတယ်။
Transform မှာဆိုရင် Multiple Data Sources ကနေ ယူလာတဲ့ Raw Data တွေကို Business ရဲ့ Requirements အပေါ်မူတည်ပြီး Data Manipulation, Data Massaging လုပ်မှာဖြစ်ပါတယ်။ ဒီနေရာမှာ Compute Performance (Computer Hardware Performance) ကို အသုံးပြုပြီး လုပ်ဆောင်ရတဲ့အတွက်ကြောင့် အဲ့ဒီ Transform Process တွေကို များသောအားဖြင့် Compute Performance Usage နည်းတဲ့ Midnight တွေမှာ Schedule Jobs တွေနဲ့ Assigned ချတာ များပါတယ်။ အခုနောက်ပိုင်း Stream Data Process အတွက်ဆိုရင် Cloud Platform တွေကို အသုံးများလာကြပါတယ်။ ဒီထဲကမှ Microsoft Azure မှာဆိုရင် Azure Delta Lake လိုမျိုးက အသုံးများပါတယ်။
Loading ဆိုတာကတော့ ခုနက အဆင့်ဆင့်လုပ်ဆောင်ပြီးသားဖြစ်တဲ့ Data တွေကို သိမ်းတဲ့နေရာ တစ်ခု ဖြစ်ပါတယ်။ တစ်နည်းအားဖြင့်ဆိုရင် Data Warehouse လို့ ခေါ်ကြပါတယ်။ အဲ့ဒီ Data Warehouse မှာဆိုရင်လည်း EDW (Enterprise Data Ware House),ODS (Operational Data Store),Data Mart ဆိုပြီး ရှိပါသေးတယ်။
ကျွန်တော့် စာက အရမ်းရှည်သွားတဲ့ အတွက် ဒီလောက်နဲ့ပဲ အဆုံးသတ်ပါရစေ။ ကျွန်တော် ပြောသွားတာတွေနဲ့ ပတ်သတ်ပြီး ဒီထက်ပိုပြီး သိချင်တာများရှိရင် Page ရဲ့ Comment မှ ဖြစ်စေ၊ Chat Box မှ ဖြစ်စေ လာရောက် မေးမြန်းနိုင်ပါတယ် ခင်ဗျာ။
အားလုံးကို ကျေးဇူးတင်ပါတယ်ဗျာ