時髦館

位置:首頁 > 生活 > 經驗

數據清洗的方法包括什麼 數據清洗的方法

經驗2.77W
數據清洗的方法包括什麼 數據清洗的方法

1、通常來說,清洗數據有三個方法,分別是分箱法、聚類法、迴歸法。這三種方法各有各的優勢,能夠對噪音全方位的清理。

2、分箱法是一個經常使用到方法,所謂的分箱法,就是將需要處理的數據根據一定的規則放進箱子裏,然後進行測試每一個箱子裏的數據,並根據數據中的各個箱子的實際情況進行採取方法處理數據。

3、迴歸法和分箱法同樣經典。迴歸法就是利用了函數的數據進行繪製圖像,然後對圖像進行光滑處理。迴歸法有兩種,一種是單線性迴歸,一種是多線性迴歸。單線性迴歸就是找出兩個屬性的最佳直線,能夠從一個屬性預測另一個屬性。多線性迴歸就是找到很多個屬性,從而將數據擬合到一個多維面,這樣就能夠消除噪聲。

4、聚類法的工作流程是比較簡單的,但是操作起來確實複雜的,所謂聚類法就是將抽象的對象進行集合分組,成爲不同的集合,找到在集合意外的孤點,這些孤點就是噪聲。這樣就能夠直接發現噪點,然後進行清除即可。

標籤:清洗