無線感測與通訊實驗室|國立陽明交通大學

子空間學習與資料叢集 (Subspace Learning and Data Clustering)
無線感測與通訊實驗室
吳卓諭教授

機器學習(machine learning)與資料科學(data science)無疑是近年電機資訊領域學術的研究主流，其中演算法的數學效能保證分析是公認非常困難的問題。因此絕大多數現有的研究成果往往只能透過電腦模擬或相關經驗法則來進行演算法效能的驗證而缺乏嚴謹的數學理論基礎。本項研究針對非監督學習中一個重要的研究問題—稀疏子空間叢集(sparse subspace clustering)進行演算法開發以及推導效能保證分析。

結合近年來壓縮式感測(compressive sensing)在訊號處理領域的發展成果，我們提出利用經典的weighted L1-norm minimization 演算法來做資料叢集。透過對資料點進行適當的加權，相較於傳統未加權的L1-norm minimization 法則我們所提的方法在沒有增加額外計算複雜度的情況下，能有效提升子空間資料叢集的準確度，特別是在子空間彼此的距離較近的情況下。除了演算法開發，我們也推導效能保證分析。有別於現有文獻中侷限於完美資料點判別(perfect identification)的數學充分條件，我們從更直覺的機率觀點出發，直接引進資料點判別正確率(correct identification rate)來當作效能指標，以忠實反映出資料點正確或誤判事件的所有可能性，這個建構於機率的思維為稀疏式子空間叢集的數學效能保證開啟了一個嶄新且更符合實際場景的分析準則。

▶ Jwo-Yuh Wu, Liang-Chi Huang, Ming-Hsun Yang, and Chun-Hung Liu, "Sparse subspace clustering via two-step reweighted L1-minimization: algorithm and provable neighbor recovery rates," in IEEE Trans. Information Theory, vol. 67, no. 2, pp. 1216-1263, Feb. 2021. (Link)
▶ Jwo-Yuh Wu, Liang-Chi Huang, Wen-Hsuan Li, Chun-Hung Liu, and Rung-Hung Gau, "Greedier is better: Selecting multiple neighbors per iteration for sparse subspace clustering," in Transactions on Machine Learning Research, 2023. (Link)