帶你簡單認識大數據、三大特性與四大分析步驟,一次搞懂不困難!
無論是在公司上班或是在學的莘莘學子,我們每天上傳至雲端的檔案數量,多達1億張相片、10億份文件… 更別提數位影音、交易、生物醫療… 每天全球所所創造的資料量高達 2.5 exabyes。
但資料量大就是大數據嗎?
大數據是什麼?
大數據(Big Data)又被稱為巨量資料,也指數量龐大而無法以傳統方式處理的資料,其概念其實就是過去10年廣泛用於企業內部的資料分析、商業智慧(Business Intelligence)和統計應用的總和。但大數據現在不只是資料處理的工具,更是一種企業思維和商業模式,因為資料量大量增加、軟體技術進步、儲存設備成本下降和雲端環境成熟等等,讓資料分析從過去的洞悉歷史進階到預測未來,甚至是破舊立新,開創新的商業模式。
大數據的興起使資料探勘、統計領域成為熱門科目,也使大數據工具開發更加快速、更容易取得與使用。而無論何種產業皆能透過分析大數據預測未來趨勢,使大數據成為各行各業都在發展的數位技術。
大數據的特性
一般來說大數據的特性可被歸類為「3V」,包括資料量(Volume)、資料多樣性(Variety)與資料即時性(Velocity)。但其實不論是幾V,大數據的資料特質和傳統資料最大的不同是,資料來源多元、種類繁多且大多是非結構化的資料,而且更新速度非常快,導致資料量大大增加。
1.資料量(Volume)
大數據與傳統數據有一差異在於資料量的多寡,因資料量遠大於傳統數據,所以以「大數據」一詞來區分兩者。若是以量化表示,大數據特別指在一天內可生成1TB以上資料量的數據(等於128個8G隨身碟,相當可觀!)也因為資料量大,無法以傳統的方式儲存處理,因此發展出大數據這一新型態科學。
2.資料多樣性(Variety)
與我們常見的轉帳紀錄、瀏覽紀錄僅紀錄一種數據不同,大數據的資料類型龐大且複雜,由於形式多元複雜,大數據儲存也需要不同於傳統數據的儲存技術。
3.資料即時性(Velocity)
大數據與傳統數據一大的不同點,就是數據生成的速度極快。由於網際網路與資訊設備普及,每一個人隨時隨地都可以創造數據,數據生成的速度已與過去不可相比。同時也強調資料的時效性,隨著使用者每秒都在產生大量的數據回饋,過去三五年的資料已毫無用處,一旦資料串流到運算伺服器,企業便須立即進行分析、即時得到結果並立即做出反應修正,才能發揮資料的最大價值。
在3V成為大數據主要定義後,隨著儲存資料的成本下降、取得成本也下降,大數據發展出第四個特性:Veracity(資料真實性),意指除了資料量,也需要確認資料的真實性,過濾掉不真實的數據與異常數值之後,分析出來的結果才能達到準確預測的目的。
大數據分析步驟
第一步.取得
數據隨時隨地都在產生,可以說是隨手可得。大型的企業,蒐集客戶的使用紀錄就可達到以數據預測未來的目標;若是中小型的企業,則可主動提供問卷請客戶填寫,逐步累積資訊量。
第二步.儲存
由於資料量龐大,處理儲存大數據是第一個難關。因此處理大數據時多使用分散式處理系統,透過分割資料與備份儲存,突破記憶體過小的障礙。
第三步.運算
為達到預測未來的目的,機器可以透過分類、迴歸分析、排序、關聯分析等方式找出其中規律,並運分析工具進行運算。
第四步.視覺化
經過分析後的數據為數字與列表,閱讀上不易。因此可搭配視覺化工具,將數據轉化為圖表的方式會變得容易閱讀與理解。
Lalamove為一結合科技數據的物流公司,我們運用過往的客戶數據資料庫,並由專業的客戶維運部門專員分析客戶以往的使用模式,在未來需求量可能暴增的時節,提早提供客戶專門的配送規劃及協助,使客戶在爆單季節無須額外擔心物流運送相關的問題!