en / de
AI
Expertisen
Methoden
Dienstleistungen
Referenzen
Jobs & Karriere
Firma
Technologie-Trends TechCast WebCast TechBlog News Events Academy

PCA & KPCA – Die Detektive der Datenwelt

Ob wir unser Handy per Gesicht entsperren, mit einer KI wie Siri sprechen oder im medizinischen Bereich Genmutationen analysieren – überall versuchen Maschinen, Muster zu erkennen. Doch viele dieser Muster, auch Trends genannt, sind nicht immer offensichtlich. Manche verstecken sich in multidimensionalen Räumen, sind gebogen, verzerrt oder überlagert. Genau hier kommen Methoden wie Principal Component Analysis und Kernel Principal Component Analysis ins Spiel, die Detektive der Datenwelt.

In diesem Blog geht es hauptsächlich um Dimensionsreduktion. Das ist eine Technik, mit der unwichtige oder redundante Informationen aus Datensätzen entfernt werden, um die Analyse zu vereinfachen. Man unterscheidet zwei Ansätze: Feature Selection und Feature Extraction. Der Unterschied liegt darin, dass Feature Selection eine Teilmenge der Originaldaten auswählt, während Feature Extraction neue Merkmale aus den vorhandenen Daten erzeugt. Solche Verfahren werden beispielsweise häufig in der Medizin, der Bildverarbeitung oder zur schnellen Diagnose eingesetzt.

Principal Component Analysis

Ein Klassiker unter diesen Methoden ist die Principal Component Analysis, kurz PCA. Wenn ein Gesicht viele Merkmale besitzt, etwa Augenabstand, Hautfarbe oder Falten, versucht PCA, diese auf wenige Hauptachsen zu reduzieren. Man kann sich das vorstellen wie bei einer grossen Band, in der mehrere Gitarristen, ein Sänger, ein Trompetenspieler und einige Violinisten spielen. PCA komprimiert diese Klangvielfalt auf möglichst wenige Instrumente, ohne dass die Musik ihren Charakter verliert. So hilft PCA, komplexe Daten in eine einfachere Darstellung zu überführen, ohne dabei zu viel Information zu verlieren oder unnötige Redundanzen zu erzeugen.

PCA geht allerdings davon aus, dass die wichtigsten Unterschiede linear sind. Linear bedeutet, dass man die Daten in einem Diagramm mit einer geraden Linie voneinander trennen kann. Doch das ist nicht immer der Fall.

Hauptkomponenten (PCs) sind neue Achsen (vergleichbar mit X und Y) , die einen mehrdimensionalen Raum beschreiben. Jede dieser Hauptkomponenten erhält einen sogenannten Eigenwert. Dieser gibt an, wie viel Varianz (also Streuung) die jeweilige Komponente erklärt.

Wenn die Daten standardisiert wurden (d.h. Mittelwert = 0 und Standardabweichung = 1), hat jede ursprüngliche Variable eine Varianz von 1. Die Formel für die Standardisierung:

Formel für die Standardisierung (Z-Transformation)

Formel für die Standardisierung (Z-Transformation) – Chatgpt generiert

Um zu entscheiden, wie viele Hauptkomponenten man behalten sollte, gibt es verschiedene Ansätze: das Kaiser-Guttman-Kriterium, den Scree-Test und den Prozentsatz der kumulierten Varianz.

Kaiser-Guttman-Kriterium

Das Kaiser-Guttman-Kriterium empfiehlt, alle Hauptkomponenten mit einem Eigenwert grösser als 1 zu behalten. Der Gedanke dahinter ist, dass nur Komponenten, die mehr Varianz erklären als eine standardisierte Ursprungsvariable, relevant sind. In der Praxis zeigt sich jedoch, dass diese Methode bei vielen Variablen häufig zu viele Komponenten auswählt, was zu Overfitting führen kann.

Cattell’s Scree-Test

Der Scree-Test basiert auf einer grafischen Darstellung der Eigenwerte (Scree-Plot). Man sucht visuell nach dem „Knick“ in der Kurve, also dem Punkt, ab dem die restlichen Eigenwerte nur noch langsam abnehmen. Obwohl dieses Verfahren einfach erscheint, ist es stark subjektiv. Der Knick ist nicht immer eindeutig erkennbar, insbesondere bei verrauschten oder hochdimensionalen Daten. In vielen Fällen wählt der Scree-Test zu wenige Komponenten aus, was die Analyse zu stark vereinfacht und wichtige Strukturen übersehen lässt.

Prozentsatz der kumulierten Varianz

Diese Methode behält so viele Hauptkomponenten, bis ein bestimmter Anteil der Gesamtvarianz (meist 70 bis 90 %) erklärt ist. Der Vorteil liegt in der Einfachheit und Reproduzierbarkeit. Obwohl die Wahl der Schwelle willkürlich ist, hat sich diese Methode in der Studie als robuster erwiesen als die anderen beiden. Sie liefert in vielen Szenarien realistischere und ausgewogenere Ergebnisse. Besonders in Kombination mit der SPDC-Methode zur Kovarianzschätzung zeigt sich diese Strategie als die zuverlässigste.

Eine Studie mit dem Titel „Optimizing PCA for Health and Care Research: A Reliable Approach to Component Selection“ hat drei Methoden zur Auswahl der Hauptkomponenten analysiert. Dabei zeigte sich, dass das Kaiser-Kriterium häufig zu viele Komponenten auswählt, was zu Overfitting führen kann. Der Scree-Test hingegen liefert oft zu wenige Komponenten. Die Methode mit der kumulierten Varianz liefert insgesamt stabilere und realistischere Ergebnisse.

Zur Schätzung der Kovarianzmatrix bei PCA hilft eine neue Methode namens SPDC (Standardized Pairwise Difference Covariance). In Kombination mit SPDC gilt die kumulierte Varianz daher als die zuverlässigste Methode.

Principal Component Analysis – Vorteile und Nachteile

Ein zentraler Vorteil bei PCA liegt im Umgang mit Multikollinearität. Wenn ursprüngliche Merkmale stark miteinander korreliert sind, kann PCA neue, voneinander unabhängige Hauptkomponenten erzeugen und so Analyseprobleme vermeiden. Ein weiterer Nutzen ist die Rauschunterdrückung. Komponenten, die nur sehr geringe Varianz enthalten, werden durch PCA entfernt. Dadurch wird der Datensatz klarer und fokussierter. PCA eignet sich zudem hervorragend zur Datenkompression. Anstatt alle ursprünglichen Merkmale zu speichern oder zu verarbeiten, reichen oft nur wenige Hauptkomponenten aus, um den wesentlichen Informationsgehalt zu erhalten. Das spart Speicherplatz und beschleunigt Rechenprozesse. Schliesslich kann PCA auch zur Erkennung von Ausreissern beitragen. In einem reduzierten Merkmalsraum lassen sich auffällige Datenpunkte leichter identifizieren, da sie deutlich vom Hauptdatenmuster abweichen.

Ein häufig genannter Nachteil ist die erschwerte Interpretation. Die neuen Hauptkomponenten sind lineare Kombinationen der ursprünglichen Variablen und lassen sich oft nur schwer inhaltlich verstehen. Zudem ist PCA sensibel gegenüber der Skalierung der Daten. Werden die Merkmale nicht korrekt standardisiert, kann das Ergebnis verzerrt oder irreführend sein. Ein weiteres Risiko besteht im Informationsverlust. Wenn zu wenige Hauptkomponenten beibehalten werden, können wichtige Strukturen oder Muster verloren gehen. Auch die lineare Annahme ist eine Einschränkung. PCA funktioniert am besten bei linearen Zusammenhängen. Bei nichtlinearen Beziehungen, etwa in biologischen Daten, kann PCA an ihre Grenzen stossen. Bei sehr grossen Datensätzen kann zudem die Berechnung der Hauptkomponenten rechenintensiv werden. Schliesslich besteht bei der Wahl zu vieler Komponenten oder bei kleinen Datensätzen die Gefahr des Overfittings. Das Modell passt sich dann zu stark an die Trainingsdaten an und verallgemeinert schlecht.

Kernel Principal Component Analysis

In der Realität sind Daten jedoch selten linear. Gerade in der Biologie überlappen sich Zelltypen, Tumorzellen sind sehr unterschiedlich und Signalverläufe können sich kreuzen. Kernel PCA, kurz KPCA, nutzt mathematische Techniken, sogenannte Kernel-Funktionen, um auch solche nicht-linearen Muster sichtbar zu machen. Dabei werden die Daten in einen höherdimensionalen Raum überführt, in dem sie plötzlich wieder linear trennbar sind. Dort kann dann eine klassische PCA angewendet werden.

Kernel Principal Component Analysis – Vorteile und Nachteile

Im Gegensatz zur klassischen PCA kann Kernel PCA auch nichtlineare Muster in den Daten erkennen. Das macht sie besonders nützlich bei komplexen Strukturen, wie sie etwa in der Biologie, Sprachverarbeitung oder Bildanalyse auftreten. Durch die Verwendung sogenannter Kernel-Funktionen (wie dem RBF oder Polynomial-Kernel) lässt sich der Datenraum rechnerisch in eine höhere Dimension abbilden, in der die Daten oft besser trennbar sind.

Ein weiterer Vorteil ist die Robustheit gegenüber Ausreissern und Rauschen. Während klassische PCA stark von lokalen Abständen zwischen Datenpunkten abhängt, berücksichtigt Kernel PCA die globale Struktur der Daten. So bleiben wichtige Zusammenhänge auch bei verrauschten oder ungleichmässig verteilten Daten erhalten. Kernel PCA ist zudem flexibel einsetzbar. Je nach Art der Daten und Analyseziel kann man unterschiedliche Kernel-Funktionen wählen. Dadurch eignet sich das Verfahren nicht nur für die Dimensionsreduktion, sondern auch für Clustering, Klassifikation oder Visualisierung komplexer Datensätze.

Einer der grössten Nachteile ist die hohe Rechenkomplexität. Für grosse Datensätze kann die Berechnung der Kernel-Matrix und der Eigenwerte sehr zeit- und speicherintensiv sein, da alle Datenpaare miteinander verglichen werden müssen. Auch die Modellwahl ist anspruchsvoll. Es gibt verschiedene Kernel-Funktionen (z. B. RBF, Polynomial, Sigmoid), und jede hat eigene Parameter, die sorgfältig abgestimmt werden müssen. Die richtige Wahl erfordert oft Erfahrung oder aufwändige Tests, da falsche Einstellungen zu schlechten Ergebnissen führen können. Ein weiterer Nachteil betrifft die Interpretierbarkeit: Während bei der klassischen PCA jede Hauptkomponente auf die Ursprungsmerkmale zurückgeführt werden kann, ist dies bei Kernel PCA nicht mehr so einfach möglich. Die transformierten Daten liegen in einem abstrakten, hochdimensionalen Raum, was ihre Deutung erschwert. Zudem setzt Kernel PCA vollständige und konsistente Daten voraus. Fehlen Werte oder sind viele Ausreisser vorhanden, kann das Ergebnis stark verfälscht werden. In solchen Fällen ist eine vorherige Datenbereinigung zwingend notwendig.

3D zu 2D Dimensionsreduktion mit Kernel Principal Component Analysis

Kernal PCA Transformed Dataset

Kernel PCA Transformed Dataset – Chatgpt generiert

Die ursprünglichen Daten in diesem Beispiel sind nichtlineare Daten in 3D, konkret eine Helix. Diese Daten würden in einer 2D-Projektion chaotisch aussehen, weil sie gebogen sind. Eine normale PCA würde hier versagen.

Kernel PCA verwendet einen sogenannten Kernel-Trick: Die Daten werden rechnerisch in einen höherdimensionalen Raum eingebettet. Das geschieht mathematisch durch sogenannte Kernel-Funktionen wie den RBF-Kernel. In diesem neuen Raum lassen sich die Daten linear trennen. Das bedeutet: Was vorher gebogen oder verdreht war, wird nun gestreckt und entwirrt. Anschliessend wird eine ganz normale PCA im Kernel-Raum durchgeführt. Das Ergebnis, also die transformierten Daten, wird dann auf eine 2D-Repräsentation projiziert, die wir visualisieren können.

Vergleich anhand von Beispielen

Bei der Gesichtserkennung funktioniert PCA gut, wenn Blickwinkel und Lichtverhältnisse gleich bleiben. KPCA erkennt Gesichter auch dann, wenn sie lächeln, gedreht sind oder im Schatten liegen. In der Spracherkennung analysiert PCA grundlegende Eigenschaften wie Tonhöhe und Lautstärke, während KPCA komplexere Merkmale wie Emotionen erkennt, etwa durch Sprechtempo, Pausen oder Betonung. In der Genetik trennt PCA klar unterscheidbare Zelltypen. KPCA dagegen erkennt auch überlappende Zelltypen, subtile Unterschiede in der Genexpression und gemischte Muster.

Deren typische Einsatzbereiche…

– PCA: Bildkompression, Noise Filtering, Feature Reduction

– KPCA: Biomedizinische Daten, Bildanalyse, Klassifikation komplexer Muster

Fazit

PCA und KPCA sind wie zwei Brillen für die Datenwelt. PCA hilft dir, klar zu sehen, solange der Weg gerade ist. KPCA dagegen zeigt dir auch die versteckten Pfade in einem dichten Wald. PCA reicht vollkommen aus, wenn man mit einfachen, klar trennbaren Daten arbeitet, etwa bei einer schnellen Ja/Nein Diagnose. KPCA hingegen ist besser geeignet, wenn die Daten komplex, gemischt oder gebogen sind, etwa in der Genetik, Sprachverarbeitung oder Bildanalyse. Je nach Anwendungsfall sollte man also genau prüfen, welche der beiden Methoden besser passt.

 

Glossar

Begriff Erklärung
Cattell’s Scree-Test Eine Methode, bei der man ein Diagramm der Eigenwerte anschaut und nach einem Knick in der Kurve sucht. Ab dort nimmt der Informationsgehalt stark ab.
Eigenwert Ein Wert, der zeigt, wie viel «Wichtigkeit» oder Streuung eine Hauptkomponente in den Daten erklärt.
Feature Extraction Man erstellt aus den vorhandenen Daten neue, kompakte Merkmale, die möglichst viel Information enthalten.
Feature Selection Man wählt gezielt nur einige wichtige Merkmale aus den Originaldaten aus und lässt unwichtige weg.
Hauptkomponente Eine neue Achse, entlang der möglichst viel Unterschied in den Daten sichtbar wird. Es ist eine Art „beste Blickrichtung“ auf die Daten.
Kaiser-Guttman-Kriterium Ein Richtwert: Man behält alle Hauptkomponenten, deren Eigenwert über 1 liegt. Sie tragen mehr bei als ein einzelnes Merkmal.
Kernel-Funktion Eine Rechenmethode, mit der man Daten so umwandeln kann, dass auch gebogene oder komplizierte Muster sichtbar werden.
Kernel Principal Component Analysis (KPCA) Eine bessere Variante von PCA, die auch mit komplexen, gebogenen Daten klarkommt, indem sie die Daten in einen anderen Raum übersetzt.
Lineare Trennbarkeit Bedeutet, dass man zwei Gruppen in den Daten mit einer geraden Linie (oder Fläche) gut voneinander trennen kann.
Multikollinearität Wenn zwei oder mehr Merkmale sich sehr ähnlich verhalten, was Analysen erschwert. PCA kann das Problem lösen.
Nichtlineare Daten Daten, die keine einfachen, geraden Zusammenhänge haben. Z. B. gebogen, verdreht oder vermischt.
Overfitting Wenn ein Modell zu genau auf die Trainingsdaten passt und bei neuen Daten versagt, also «übertrainiert» ist.
Principal Component Analysis (PCA) Ein Verfahren, das komplizierte Daten vereinfacht, indem es nur die wichtigsten Unterschiede in neue Achsen überführt.
Scree-Plot Ein Diagramm, das zeigt, wie wichtig die einzelnen Hauptkomponenten sind. Es ist hilfreich für die Entscheidung, wie viele man behält.
SPDC Eine neue Methode zur Schätzung von Zusammenhängen zwischen Merkmalen. Es hilft dabei, zuverlässigere Ergebnisse mit PCA zu bekommen.

Quellenverzeichnis

Kommentare

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Newsletter - aktuelle Angebote, exklusive Tipps und spannende Neuigkeiten

 Jetzt anmelden

Copyright © 2025 Noser Engineering AG – Alle Rechte vorbehalten.

NACH OBEN
Privacy Policy Cookie Policy
Zur Webcast Übersicht