Datenfusion bezeichnet die Zusammenführung und Vervollständigung lückenhafter Datensätze. Sie ist ein wichtiger Bestandteil der Informationsintegration. Es werden mit Hilfe eines Spenderdatensatzes Daten in einem Empfängerdatensatz ergänzt. Der Spenderdatensatz besteht aus Variablen
und der Empfängerdatensatz aus Variablen
. Die Variablen
liegen also in beiden Datensätzen vor, während die Variablen
bzw.
nur in einem der Datensätze vorliegen. Auf Basis des Spenderdatensatzes wird ein Modell zur Berechnung der Werte
aus den Variablen
erstellt. Dieses Modell wird auf den Empfängerdatensatz angewandt, so dass ein neuer, fusionierter Datensatz entsteht:
. Die verwendeten statistischen Verfahren werden dabei unter dem Begriff Statistical matching zusammengefasst und sind z. T. verwandt mit den Verfahren der Imputation von fehlenden Werten.