Ako vysvetlím rozdiel medzi RPCA a PCA?


Odpoveď 1:

Edit: Doh, práve som si uvedomil, že by ste sa pýtali na Robust-PCA a nie na regresiu hlavných komponentov (aka regresia-PCA). Čo sa oplatí, je tu odpoveď na poslednú uvedenú otázku.

Niekedy počas regresie budú skupiny vstupných premenných (kovariáty) kolineárne (pozri ďalšiu otázku o multikolinearite). To znamená, že vstupy, ktoré sú navzájom veľmi prediktívne, znamenajú určitý druh redundancie z hľadiska výstupu: ak môžete predpovedať

yy

dobre s

xx

, nepotrebujete ďalšiu kópiu

xx

,

Bohužiaľ to vidí regresia OLS a snaží sa kompenzovať priradením podobnej zodpovednosti k kolineárnym vstupom. Vo vyššie uvedenom príklade premýšľajte o tom, koľko rôznych rovín existuje, ktoré sú takmer optimálne (v najmenšom zmysle slova) ...

Nekonečné, však? Akákoľvek rovina, ktorá prechádza bodmi, bez ohľadu na rotáciu okolo zelených bodov: Predstavte si druh osi zakotvenej v strede vzduchu, ktorý prechádza cez zelené body a potom sa na nej nakloní červená rovina.

Aby sme to ešte zhoršili, tak, že sa údaje mierne zmenia, konečné regresné hmotnosti, ktoré v podstate regulujú gradient roviny, by sa mohli veľmi líšiť. To znamená, že model je nestabilný.

Aký je teda principiálny spôsob zlúčenia vstupných premenných, ktoré korelujú? Tu je to, čo urobí program Regression-PCA:

Najprv urobí PCA na vstupoch (modré body), tj nájde modrú čiaru v rovine XZ na premietanie modrých bodov na (tak, aby sa minimalizovala celková projekčná vzdialenosť). Táto čiara teraz funguje ako nová os - zavolajte ju

bb

,

a pôvodný regresný problém je teraz vyriešený v rámci referencie

byb-y

, lineárna regresia s jednou premennou.

Preto necháme PCA, aby našiel tieto zoskupenia podobných premenných, namiesto toho, aby to nechal na OLS s inherentným nebezpečenstvom nestability znázorneným vyššie.

Nakoniec prehodnotiť regresiu na pôvodnú

xzyx-z-y

priestor, bez ohľadu na regresný koeficient, ktorý bola odvodená premenná b (tu je to 0,5), sa rozdelí spravodlivo podľa hmotností osi odvodenej od PCA (takže konečná hmotnosť RPCA bude

(0.25,0.25)(0.25, 0.25)

).