当前位置: 首页 > 資訊 >

[DAY04] 建立 Datastore 和 Dataset (下)

DAY04 建立 Datastore 和 Dataset (下)

今天我們就要把昨天建立好的 data 匯入成 Datastore 了。

還記得 Datastore 扮演了 connector 的角色嗎?現在我們來建立 Datastore,大家就會明白我為什麼這麼說了。

先來建立 Datastore

  1. 進入 studio 的首頁頁面,點選左邊下面的 Datastores。
    Build Dataset in Azure Machine Learning

  2. 我們可以看到,已經有一些 Datastores 在裡面了,不過我們不要管它們,因為我們要使用昨天建立 Blob。點擊畫面左上的 New Datastore。
    Build Dataset in Azure Machine Learning

  3. 這時候畫面右邊會跳出一個視窗,欄位說明如下:

  • Datastore name:就是這個 Datastore 的名稱。
  • Datastore type:我們這邊選擇 Azure blob storage。
  • Account selection method:這邊選 From Azure Subscription,不要選手動輸入的,打字很累。
  • Subscription ID:就選貴公司的 Azure 訂閱,或是自己的 Free trial。
  • Storage account:選我們昨天建好的那個 account。
  • Blob Container:選我們昨天建好的那個 container。
  • Save credential:這裡可以勾 YES 給他存起來比較方便。
  • Authentication type:選 Account Key,如果有期限需求的話可以用 SAS。
  • Account Key:這裡要去 Azure Storage account 裡面找,後面有圖片說明。
  • Use workspace managed identity:這裡也可以勾 YES,不過還是看你的權限控管。
    Build Dataset in Azure Machine Learning
  1. Storage type 我們也可以選擇其他的 SQL 資料庫。不過為了 DEMO 方便就用 Blob。
    Build Dataset in Azure Machine Learning

  2. 要取得步驟3中需要的 account key,我們要先回到昨天建立的 storage account。在左邊的 blade 選單中找到 Access keys,然後點選上方的 Show Keys,就可以複製 Key 到建立 Datastore 的視窗中。
    Build Dataset in Azure Machine Learning

  3. 建立好我們自己的 Datastore 後,就可以在畫面中間看到它了。
    Build Dataset in Azure Machine Learning

再來建立 Dataset

  1. 在左邊的選單中找到 Datasets,點中間的 Create dataset,我們可以看到有許多種方式可以建立 dataset,我們選擇 from datastore。
    Build Dataset in Azure Machine Learning

  2. 點下去之後,右邊會跳出個視窗。我們幫這個 Dataset 取名字,然後選擇 Tabular,因為鐵達尼號的資料是表格的型式。
    Build Dataset in Azure Machine Learning

  3. 下一步就是選擇你要用哪個 datastore,我們就選擇剛剛建立的那個。
    Build Dataset in Azure Machine Learning

  4. 然後選擇裡面我們昨天上傳的檔案。
    Build Dataset in Azure Machine Learning

  5. 我們可以看到 AML 會自動幫我們解析這個 CSV 檔。欄位都列出來了,CSV 檔的格式、還有表頭的設定等等的,都幫我們做好了。
    Build Dataset in Azure Machine Learning

  6. 接著它會列出 schema,你可以選擇哪些欄位要、哪些欄位不要,像我就把 passager id 這個欄位給取消掉。
    Build Dataset in Azure Machine Learning

  7. 最後就是一個確認和建立的動作。
    Build Dataset in Azure Machine Learning

  8. 建立之後我們就可以看到剛剛的 Dataset 出現在畫面中間了。
    Build Dataset in Azure Machine Learning

  9. 我們可以點擊進去裡面看看。像是資料的版本控制,也可以透過 New vision 來上新版本的資料。
    如果點擊 consume 這個 tab,我們可以看到使用這個 dataset 的程式碼都幫你生成好了。
    Build Dataset in Azure Machine Learning

  10. 點擊 Explore 的話,還可以看到一些直方圖。
    Build Dataset in Azure Machine Learning

到此為止,我們就成功把資料集建立到 Azure Machine Learning 裡面啦!

我們再來總結一下:

  1. 透過 Datastore 可以安全地取得你的資料。
  2. 不只是 CSV file 的資料,連資料庫的資料都可以透過 Datastore 來取得。
  3. Dataset 本身就內建有很多的功能,包含了取得此資料集的程式碼、版本控制、甚至基本的視覺化資料都有了。
  4. 我們了解了 Datastore 和 Dataset 之間的關係。