機器學習建模步驟 你知道嗎
1、實際問題抽象成數學問題:這裏的抽象成數學問題,指的我們明確我們可以獲得什麼樣的數據,目標是一個分類還是迴歸或者是聚類的問題,如果都不是的話,如果劃歸爲其中的某類問題。
2、獲取數據:獲取數據包括獲取原始數據以及從原始數據中經過特徵工程從原始數據中提取訓練、測試數據。機器學習比賽中原始數據都是直接提供的,但是實際問題需要自己獲得原始數據。“ 數據決定機器學習結果的上限,而算法只是儘可能的逼近這個上限”,可見數據在機器學習中的作用。總的來說數據要有具有“代表性”,對於分類問題,數據偏斜不能過於嚴重,不同類別的數據數量不要有數個數量級的差距。 對評估數據的量級,樣本數量、特徵數量,估算訓練模型對內存的消耗。如果數據量太大可以考慮減少訓練樣本、降維或者使用分佈式機器學習系統。
3、特徵工程:特徵工程包括從原始數據中特徵構建、特徵提取、特徵選擇、特徵工程做的好能發揮原始數據的最大效力,往往能夠使得算法的效果和性能得到顯著的提升,有時能使簡單的模型的效果比複雜的模型效果好。數據挖掘的大部分時間就花在特徵工程上面,是機器學習非常基礎而又必備的步驟。數據預處理、數據清洗、篩選顯著特徵、摒棄非顯著特徵等。訓練模型、診斷、調優模型診斷中至關重要的是判斷過擬合、欠擬合,常見的方法是繪製學習曲線,交叉驗證。通過增加訓練的數據量、降低模型複雜度來降低過擬合的風險,提高特徵的數量和質量、增加模型複雜來防止欠擬合。診斷後的模型需要進行進一步調優,調優後的新模型需要重新診斷,這是一個反覆迭代不斷逼近的過程,需要不斷的嘗試,進而達到最優的狀態。
4、模型驗證、誤差分析:通過測試數據,驗證模型的有效性,觀察誤差樣本,分析誤差產生的原因,往往能使得我們找到提升算法性能的突破點。誤差分析主要是分析出誤差來源與數據、特徵、算法。
5、模型融合:提升算法的準確度主要方法是模型的前端(特徵工程、清洗、預處理、採樣)和後端的模型融合。在機器學習比賽中模型融合非常常見,基本都能使得效果有一定的提升。
6、上線運行:這一部分內容主要跟工程實現的相關性比較大。工程上是結果導向,模型在線上運行的效果直接決定模型的成敗。 不單純包括其準確程度、誤差等情況,還包括其運行的速度(時間複雜度)、資源消耗程度(空間複雜度)、穩定性是否可接受。
-
夢見自己又結婚
夢見自己再次結婚可能代表內心的渴望和希望。這個夢境可能暗示着你對美滿婚姻的嚮往或對新的開始的渴望。它也可能代表你對現有關係的不滿或不確定性,以及對更好的伴侶關係的尋求。這個夢境還可能表達你對婚姻生活的期望和幸福。...
-
吃什麼臉會變白
臉部皮膚的顏色主要受到遺傳因素、環境因素和個人護膚習慣的影響。食物對皮膚顏色的影響並不直接。然而,一些食物可能對皮膚健康有益,使皮膚看起來更加清晰和光滑。例如,攝入足夠的維生素C和維生素E可以幫助皮膚保持健康狀態,而攝入足夠的水分可以保持皮膚水分充足...
-
陰曆3月什麼水晶最旺運
在陰曆3月,一些水晶被認爲能帶來好運和正能量,其中最常見的包括:1.碧璽(Aquamarine):被視爲陰曆3月的守護石,有助於增強溝通能力和平衡情緒。2.綠幽靈晶(GreenPhantomQuartz):被認爲有助於清除負能量、提升個人運勢,並增強個人內在力量。3.黃金雲母(GoldenMica):被視爲吸引財...
-
陽臺種什麼樹最旺風水呢
陽臺種植一些具有繁茂生長和旺盛生命力的樹木可以帶來良好的風水。一些適合陽臺種植的樹木包括:1.紫葳:紫葳樹生長迅速,葉片豐盛茂盛,具有很高的生命力。它被認爲能夠吸引正能量,有助於調節氣場與環境。2.花旗鬆:花旗鬆是一種長壽樹木,樹冠茂密,很適合陽臺種植。花旗鬆...