集成學習
ensemble learning
定義:通過結合多個學習器來解決問題的一種機器學習范式。其常見形式是利用一個基學習算法從訓練集產生多個基學習器,然后通過投票等機制將基學習器進行結合。代表性方法包括Boosting、Bagging等。
學科:計算機科學技術_人工智能_機器學習
相關名詞:機器學習 決策樹 圖像識別
圖片來源:視覺中國
【延伸閱讀】
集成學習是一種機器學習方法,它通過將多個基本的學習模型(也被稱為基學習器)組合成一個強大的學習系統(tǒng)來提高模型的性能。集成學習的基本思想可以概括為“多樣性和投票”,即通過構建多個基學習器,并讓它們對輸入數(shù)據(jù)進行獨立的預測,然后通過某種方式將各個基學習器的預測結果結合起來,產生一個最終的預測結果。這樣做的好處是,各個基學習器可以各自在不同的特征子集或者在不同的模型空間進行學習,從而降低模型的泛化誤差。
集成學習的概念可以追溯到20世紀90年代初期,但真正引起人們關注是在2000年以后。根據(jù)個體學習器的生成方式,目前的集成學習方法大致可分為兩大類:一類是個體學習器間存在強依賴關系、必須串行生成的序列化方法,如Boosting(自適應提升);另一類是個體學習器間不存在強依賴關系、可同時生成的并行化方法,如Bagging(自助投票)和隨機森林。其中,Boosting是一族可將弱學習器提升為強學習器的算法,主要是通過對樣本集的操作獲得樣本子集,然后用弱分類算法在樣本子集上訓練生成一系列的基分類器;Bagging是一種基于數(shù)據(jù)隨機重抽樣的集成學習方法,它通過從原始數(shù)據(jù)集中有放回地抽取樣本來訓練多個基分類器,并對所有基分類器的預測結果進行平均或投票來產生最終的預測結果;隨機森林是Bagging的一個擴展變體,它在以決策樹為基學習器構建Bagging集成的基礎上,進一步在決策樹的訓練過程中引入了隨機屬性選擇。
集成學習的應用非常廣泛,例如圖像識別、文本分類、金融風險評估、生物信息提取、醫(yī)療診斷等。在圖像識別方面,可以用于目標檢測、語義分割等任務;在文本分類方面,可以用于情感分析、垃圾郵件過濾等任務;在金融風險評估方面,可以用于信用評分、欺詐檢測等任務;在生物信息學中,可從海量基因組數(shù)據(jù)中提取有用信息;在醫(yī)療診斷方面,可用來提高疾病診斷的準確度。
(延伸閱讀作者:西華師范大學數(shù)學與信息學院 李斌斌博士)
責任編輯:張鵬輝