Die orthogonale Regression

1. Beschreibung

Im Gegensatz zur normalen linearen Regression minimiert die orthogonale Regression die orthogonalen Abstände aller Messwerte zu der Regressionsgeraden.

2. Herleitung der Lösungsformel

Der geometrische Abstand d_i eines Messpunktes P(x_i | y_i ) zu einer Ausgleichsgeraden

f(x) = mx + t

lässt sich wie folgt berechnen:

\displaystyle d_i^2 = \frac{(y_i – (mx_i + t))^2}{1 + m^2}

Gesucht sind nun die Koeffizienten m und t mit der kleinsten Summe der Fehlerquadrate

\displaystyle\min_{m,t}\sum_{i=1}^N d_i^2

2.1 Berechnung der partiellen Ableitung nach t

Die Gleichung

\displaystyle\frac{\partial}{\partial t}\sum _{i=1}^N \frac{(y_i – (mx_i + t))^2}{1 + m^2} = 0

ergibt als Lösung

t = \overline{y} – m \overline{x}

Dabei wird als \overline{x} der Mittelwert der x-Koordinaten der Messpunkte bezeichnet. Analog dazu ist \overline{y} der Mittelwert der y-Koordinaten der Messpunkte. Diese Lösung hat auch zur Folge, dass der Punkt P(\overline{x}|\overline{y}) stets auf der Ausgleichsgeraden liegt.

2.2 Berechnung der partiellen Ableitung nach m

Die Gleichung

\displaystyle\frac{\partial}{\partial m}\sum _{i=1}^N \frac{(y_i – (mx_i + t))^2}{1 + m^2} = 0

ergibt nach ca. einer Seite Berechnung folgende quadratische Gleichung:

\displaystyle m^2S_{xy} + m ( S_{xx} – S_{yy} ) – S_{xy} = 0

Dabei sind

\displaystyle S_{xx} = \sum_{i=1}^N (x_i – \overline{x})^2 und \displaystyle S_{yy} = \sum_{i=1}^N (y_i – \overline{y})^2

die Quadratsummen der Messwerte von X und Y und

\displaystyle S_{xy} = \sum_{i=1}^N (x_i – \overline{x}) (y_i – \overline{y})

die Produktsumme zwischen X und Y.

Auf Grund des Steigungsverhaltens dieser Parabel ergibt sich für das Minimum hier die Lösung

\displaystyle m = \frac{S_{yy} – S_{xx} + \sqrt{(S_{xx} – S_{yy})^2 + 4(S_{xy})^2}}{2S_{xy}}

Die Gleichung der Regressionsgeraden lautet somit:

\displaystyle f(x) = m ( x – \overline{x} ) + \overline{y}

2.3 Beispiel
\mathbf{x_i}\mathbf{y_i}\mathbf{x_i-\overline{x}}\mathbf{y_i-\overline{y}}\mathbf{(x_i-\overline{x})^2}\mathbf{(x_i-\overline{x})(y_i-\overline{y})}\mathbf{(y_i-\overline{y})^2}
P11,02,0-2,3-2,15,294,834,41
P22,03,5-1,3-0,61,690,780,36
P34,05,00,70,90,490,630,81
P44,54,51,20,41,440,480,16
P55,05,51,71,42,892,381,96
Summe16,520,50,00,0\mathbf{S_{xx}=11,8}\mathbf{S_{xy}=9,1}\mathbf{S_{yy}=7,7}
Mittelwert\mathbf{\overline{x} = 3,3}\mathbf{\overline{y} = 4,1}


\displaystyle m = \frac{-4,1 + \sqrt{4,1^2 + 4 * 9,1^2}}{2 * 9,1}

Es ergibt sich m = 0,8 und die Regressionsgerade lautet daher wie folgt:

\displaystyle f(x) =0,8 ( x – 3,3 ) + 4,1