,其實這裡面學問還真挺多。這玩意簡單講哈的話,就是在那一堆隨著時間變化的數據裡頭找不正常的地方。打個比方就像是你每天記錄自己走路的步數,大部分時候可能都在一個範圍內,突然有一天步數特別特別多,那不就有點不正常了嗎,這其實就是一個簡單的基於時間的異常例子,但這能處理的可遠遠沒這麼簡單。

咱說說為啥這東西這麼重要。在好多的領域都少不了它像是網絡運維這方面,要是一段時間內,網絡流量突然大幅度增加或者減少,通過就能提前察覺到,及時去弄清楚咋回事,避免服務器爆掉。還有金融這一塊,比如說股票價格突然急劇下跌啊或者成交量突然變得特別誇張,要是能早早發現這種異常,那金融投資者他們就能提前調整投資策略說不定就能少虧不少錢

那具體咋做呢?

第一步咱要了解那些時間序列的數據喲。這個數據呢各式各樣,有的是線性變化的,有的那是上上下下波動不規則的。要清楚這些數據的特點呀。

1. 比如規律性就是說數據會按照一定規律反復出現。要是不把這規律搞明白,到時候弄叉劈了就會錯過好多異常事件。常見的就是周期性現象,嗯有時候一個月內有些商品銷量可能就有固定高和低的時段

2. 還得研究噪聲,這噪聲,在我理解可能就是那種亂七八糟跟異常不搭邊可是會干擾判斷的小東西,有些時候就不能當成是異常信號了,可就純粹是來搗亂的雜碎嘛。得把它好好剔除出去

咱還得分模塊來想這個事情?從不同角度來看這事的!時間窗口這一塊呢的話,是重中之重。

1. 短期窗口內的異常比較容易明白。就是幾分鐘或者幾小時內出現的突然變化情況。像一個app要是短短十幾分鐘內登錄次數極大增加。哇這就得仔細琢磨看看是不是內部出故障還是被惡意攻擊!

2. 再講講長期窗口。要是長期表現出來的,打個比方這個企業這幾個月利潤一直持續非正常下降。哎呀就得去深挖背後原因要瞅瞅到底內部運營不合理還是市場整個不行了噢

完後,下面還有幾種檢測方法。

1. 統計方法裡頭呀,它靠分析數據那些分佈規律。比如計算那個什麼平均值啊、方差這些東西!要是某個時間點數據跟按照這些統計出來的差得特遠,那可能就是異常!

2. 機器學習方法裡頭也花樣繁多的,有那些有監督學習,提供一堆正常或異常數據教系統識別;無監督反正不需要你來告訴東西正常與否。系統就自己從數據中找出它覺得不同尋常的!

最後再說幾個實際操作常問到的點。

有朋友會問什麼樣的數據準備最理想? 其實啊數據當然越全乎越好啦,涵蓋足夠長的時間段勒。數據的真實性準確性噢可必須保證。要是給的數據就是錯窟窿一堆,哪能整出正確分析噢

還有人會問道為啥不同模型結果有分別?這個嘛就很正常每個模型側重點不一樣。有的對短期有效有的嘛對付長期情況嘞更為擅長!就跟前頭說那樣的嘞

咱最後個人說說這事! 絕對算值得深挖好好利用好傢伙。不過在實際操作的時候得把方方面面都想好嚕!不能心急咯咱一步一步做好了才能搞出正確結論! 以後好多方面可能都在大量更多地普及使用這東西

Posted in

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *