要能夠洞燭先機,就必須在最短的時間內,搶先別人一步以最少的資料獲得最多的資訊、知識、甚至智慧!本研究旨在從有限的資料中,挖掘出最關鍵的資訊,以預測未來趨勢或控制事件發展。傳統的大數據研究多著重於龐大資料的分析,但現實中,許多領域卻面臨著小樣本、高維度資料的挑戰。例如,半導體產業和生醫領域,往往需要從少量的樣本中,找出眾多變數間的關聯性。研究聚焦於以下兩個方面。
1. 決策樹模型: 我們開發了樣本效率高的迴歸決策樹 (SERT) 和多層分類器 (MLC),能夠更有效地從小樣本資料中學習,並提供更具解釋性的模型。這些模型在半導體良率分析和生物資訊學領域展現出優異的性能。
2. 變數選擇: 我們提出了一種新的變數相對重要性評估方法,能夠更準確地在高維度資料中選出關鍵變數。這對於從基因組學等領域的大量基因中篩選出關鍵基因具有重要意義。
這些研究旨在為資料科學研究開闢新的方向,特別是在小樣本、高維度資料分析方面。 其研究成果不僅有助於提高預測準確性,還能幫助研究人員更好地理解複雜系統的運作機制。