Analizo al precipaj konsisteroj

El testwiki
Salti al navigilo Salti al serĉilo

Analizo al precipaj konsisteroj (alinomita transformo de Karhunen-Loève (KLT), aŭ transformo de Hotelling) estas matematika teĥniko por plisimpligi la datumojn rezultantaj enkadre de statistiko multvariabla, kaj kiu ebligas evidentigi fenomenojn ial kaŝitajn en la komplekseco de multego da datumoj, determinante kunmetaĵojn da plej rezultivaj datumoj. Tiu metodo ne estis ebla ĝis la ekekzisto de komputiloj, ĉar ĝi bezonas egan amason da kalkulado, sed ekde informadiko, ĝi estas facila kaj fruktdona teĥniko, kiu ekzemple montris el la genaj datumoj de eŭropa loĝantaro la genetikan apartecon de la Eŭskoj de Ebro ĝis Garono, aŭ pruvi, ke la disvastiĝo de agrikulturo ne estis disvastiĝo de novkutimo, sed de gento da agrikulturantoj.

Analizo al precipaj konsisteroj de multvariebla normala distribuo centrata en (1,3) kun norma devio de 3 laŭ la direkto (0.878, 0.478), kaj de 1 laŭ la orta direkto. La montrataj vektoroj estas la ajgenvektoroj de la matrico de varianco- kunvarianco normigitaj per la kvadrata radiko de la dua ajgenvaloro, kaj ŝovitaj al la mezvaloro.

La analizo al precipaj konsisteroj estis inventita de Karl Pearson[1] en 1901. Ĝi estas la plej simpla multvariebla analizo aigenvektorbazita. Ĝi estas nun precipe uzata kiel ilo en esplora datumo analitiko kaj por prognozi modelojn. Eblas fari analizon al precipaj konsisteroj per ajgena malkomponaĵo de matrico de varianco-kunvarianco (aŭ de korelacio) de datenoj, aŭ per singulara valora malkomponaĵo de matrico de datenoj, kutime post centrigado rilate al la mezvaloroj (kaj normigado) de ĉiu elemento de la matrico. Ĝi estas orta transformo, kiu konvertas aron da observaĵoj de eblaj korelaciataj variabloj al aro de valoroj de precipaj konsisteroj (ankaŭ nomataj ĉefaj komponantoj), tielmaniere ke la unua precipa komponanto prezentas la kiel eble plej grandan variancon (ĉar variabloj estas supozitaj sendependaj laŭ tia metodo) laŭ sia direkto, la kiel eble plej malgranda varianco laŭ la orta direkto; ĉiu laŭvica komponanto havas la kiel eble plej granda varianco, sub la trudo, ke ĝi estu orta (t.e. ne-korelaciigita) al la antaŭa komponanto.

Tiu metodo permesas ankaŭ kompresadon de aro da N hazardaj variabloj, al la n-aj (n<N) unuaj komponantoj elektitaj kiel plej bonaj por priskribi la studaton.

Formulado pri statistiko

Konsideru p hazardajn variablojn Xj, kiuj estas centritaj rilate siaj atenditaj valoroj, t.e. pri kiuj iliaj atenditaj valoroj estas subtrahitaj de ĉiu el ili. Tiuj variabloj estas kunigitaj en unu (p×1) hazarda vektoro x_. Tiu kolumna vektoro, tiel difinita, havas nulan vektoron kiel atenditan mezvektoron, kaj la (p×p)matrico de varianco-kunvarianco Σ_ estas simetria kaj pozitive difinita. La ajgenaj valoroj λj, j=1,,p, de la matrico Σ_ estas ordigitaj laŭ siaj grandoj en diagonala matrico Λ_. Iliaj respektivaj ajgenvektoroj faras la ortan matricon Γ_, pri kiu:

Λ_=Γ_TΣ_Γ_ .

La hazarda vektoro  x_ estas lineare transformita tiel:

x_y_=Γ_Tx_ (x_=Γ_y_) ,

per kiu la precipaj konsisteroj estas kalkulataj. Oni vidas ĉi tie la limon de la metodo, kiu do koncernas nur linearajn kombinaĵojn pri multvarieblaj sistemoj. Kelkfoje, por kompensi tian malavantaĝon, la influoj de apartaj variabloj estas modifiataj per multipliko de taŭgaj koeficientoj.

Ekzemplo

Konsideru ni tridimensian hazardan vektoron:

x_=(X1X2X3).

La matrico de la ajgenoj de la matrico de varianco-kunvarianco Σ_ rilatante al x_ estas:

Λ_=(λA000λB000λC),

kie λA>λB>λC .

Eblas kunigi la (3×1) kolumnajn vektorojn de ĉiu el le tri ajgenvektoroj γ_j en unu matricon Γ_:

Γ_=(γ_Aγ_Bγ_C)
=(γ1Aγ1Bγ1Cγ2Aγ2Bγ2Cγ3Aγ3Bγ3C).

Per multipliko

x_y_=Γ_Tx_

sekvas la ekvacioj

YA=γ1AX1+γ2AX2+γ3AX3
YB=γ1BX1+γ2BX2+γ3BX3
YC=γ1CX1+γ2CX2+γ3CX3.

La varianco de YA estas[2]

Var(YA)=λA .

La precipa konsistero  YA estas la pli granda elemento de la variancaro de la datenoj, YB estas la dua komponanto, ktp. La koeficientoj  γjk, j=1,2,3; k=A,B,C, permesas kalkuli la efikojn de la variabloj  Xj rilate al  k komponanto. La matrico  Γ_ indikas "kun kioma pezo, la variablo  X influas la komponanton  Y".

Uzoj

  • Pri statistika modelo kun multegaj parametroj, per analizo al precipaj konsisteroj, la elekto de la hazardaj variabloj de la modelo reduktiĝas, kaj permesas trakti kaj klarigi sufiĉe bone la konsideratan problemon.
  • Analizo de 11 sociekonomikaj indikiloj pri 96 landoj rivelas, ke la rezultoj priskribas landon kun alto grado, per nur 2 ĉefaj komponantoj, la unua estanta la tuta MEP de la lando, kaj la dua la indikilo pri la amplekso de ĝia kamparparto.
  • Por aĉetcentralo, tia analizo permesas koni la preferojn de konsumantoj laŭ iliaj sociaj statusoj, iliaj aĝoj aŭ iliaj familiaj statusoj. Tial, eblas kanaligi la reklamoj, kaj la produktojn al la taŭgaj klientoj.
  • Pri la traktado de bildoj, tia analizo estas uzata; aparte pri la distanca sondado, la bildoj de satelitoj estas analizataj, permesante observadon de iaj topografiaj evoluoj.
  • Danke al analizo de vico de dinamikaj bildoj en nuklea medicino per scintigrafio, eblas detekti eventualan misfunkcion de koro aŭ de renoj.

Referencoj

Ŝablono:Referencoj

Eksteraj ligiloj

Ŝablono:Projektoj

Ŝablono:Bibliotekoj

  1. (Ŝablono:En) Ŝablono:Cite journal Ŝablono:Webarchiv: Pri plej bona alĝustigo de punktaro.
  2. (Ŝablono:En) Jonathon Shlens.A Tutorial on Principal Component Analysis. Ŝablono:Webarchiv Demonstro kial la ejgenvaloroj de la matrico de varianco-kunvarianco estas la variancoj de la transformitaj vektoroj.