數據是人類的發明。人類定義了他們想要測量的現象,設計系統收集數據,在分析之前進行清理和預處理,最後選擇如何解釋結果。
即使使用相同的數據集,兩個人也可以得出截然不同的結論。
這是因為數據本身並不是“地面真實”——能夠反應客觀現實的、可觀察的、可證明的數據。
你如何概念化一個現象,確定要測量什麼,並決定如何測量,將影響你收集的數據。你利用AI解決問題的能力很大程度上取決於你如何表述你的問題,以及你是否能建立無歧義的”地面真實“。如果你的標準本身是錯誤的,那麼結果不僅是錯誤的,而且可能對你的業務有害。
除非你直接參與定義和監視原始的數據收集目標、工具和策略,否則你可能無法掌握那些能幫你發現錯誤處理、解釋和使用這些數據的關鍵知識。大多數被我們成為“數據”的東西可能是些僅僅是用來支持某種議程的測量、與事實無關的信息集合、或者來自看起來合理、但是帶有偏見的收集工作。
下面是一個關於九個常見統計錯誤的速成班,每個管理者都應該熟悉:
1.不明確的目標:
未能確定收集數據的原因,意味著你將錯過闡明假設和確定收集內容的機會。結果是你可能會收集錯誤的數據或不完整的數據。
大數據的一個共同趨勢是企業收集大量信息而不了解他們為什麼需要它,以及他們如何使用它。收集龐大而混亂的數據量只會阻礙你未來的分析,因為你將不得不通過更多的垃圾來尋找你真正想要的東西。
2.定義錯誤:
假設你想知道你的客戶上個季度花了多少錢在你的服務上。即使是這樣一個簡單的目標也需要在你得到你想要的信息之前定義一些假設。
首先,你如何定義“顧客”?取決於你的目標,你可能不想把每個人都放到一個桶裡。您可能希望通過購買行為細分客戶,以便相應地調整營銷動作或產品特性。如果是這樣的話,那麼你需要確保你包含了關於客戶的有用信息,例如人口信息或支出歷史。
還有一些戰術上的考慮,比如你如何定義宿舍。你會使用財政季度或日曆季度嗎?許多組織的財政年度與日曆年不符。財政年度也在國際上有所不同,澳大利亞的財政年度從7月1日開始,印度的財政年度從4月1日開始。你還需要製定一個策略來解釋回報或交換。如果顧客在第一季度買了你的產品,但又把它退回去了呢?如果他們對你提出了質量投訴並得到退款怎麼辦?你把這個事件歸到哪個季度?所以定義不是那麼簡單。你將需要討論你的期望,並設置適當的參數,以收集你真正想要的信息。
3.捕獲錯誤:
一旦確定了希望收集的數據類型,就需要設計一種機制來捕獲它。這裡的錯誤可能導致捕獲不正確的或偶然的、有偏見的數據。例如,如果你想測試產品A是否比B產品更吸引人,但你總是在你的網站上顯示產品A,那麼用戶可能不會頻繁地看到或購買B產品,從而導致你得出錯誤的結論。
4.測量誤差:
當你捕獲數據的軟件或硬件出錯時,或無法捕獲可用數據或產生虛假數據時,就會出現測量錯誤。例如,使用日誌與服務器不同步,則可能丟失移動應用程序上的用戶行為信息。同樣,如果你使用像麥克風這樣的硬件傳感器,你的錄音可能會捕捉到背景噪音或其他電信號的干擾。
5.加工誤差:
許多企業擁有幾十年前的數據,原來能夠解釋數據決策的團隊早已不在了。他們的許多假設和問題很可能沒有文檔化,這將取決於你推斷,這可能是一項艱鉅的任務。
你的團隊可能會做出與原始數據收集過程中不同的假設,並得出截然不同的結果。常見的錯誤包括缺少一個特定的過濾器,使用不同的會計標準,並簡單地犯方法錯誤。
6.覆蓋誤差:
覆蓋誤差指,目標受訪者都沒有足夠的機會參與數據調查的情況。例如,如果你正在收集老年人的數據,但只提供網站調查,那麼你可能會錯過許多答卷人。
你的營銷團隊可能有興趣預測所有移動智能手機用戶的行為與未來的產品的關係。然而,如果您只提供iOS應用程序而不是Android應用程序,iOS用戶數據將使你對Android用戶的行為有有限的了解。
7.抽樣誤差:
當你分析一個較小的樣本時,就會發生抽樣誤差。當數據只存在於某個群體中時,這是不可避免的。結論:你得出的代表性樣本可能不適用於整體。
8.推理錯誤:
當統計和機器學習模型從已有數據中做出不准確的判斷後,它們之後的推理結果也可能是錯誤的。如果你有一個非常乾淨的“地面真實”數據庫,那麼就可以用它去檢測數據模型得出的推理是否正確,但實際上,大多數數據庫是充滿噪音的,所以你通常很難確定AI推論的錯誤點在哪裡。
9.未知錯誤:
現實是難以捉摸的,你不能總是輕易地建立事實。在許多情況下,比如使用數字產品,你可以捕獲大量用戶在平台上的行為數據,而不是他們對這些行為的動機。你可能知道一個用戶點擊了一個廣告,但你不知道他們對它有多惱火。除了已知的許多類型的錯誤之外,還有一些未知,它們在以數據代表的現實和現實本身之間留下了一個缺口。
沒有數據科學或機器學習背景的管理人員通常會犯這九大錯誤,但許多更微妙的問題也會阻礙AI系統的性能。