Machine Learning Clustering Problems Workflow

2017-06-23

Business Task

Data Pre-processing

1. Feature Selection

Data Visualization

1. PCA
2. Plot Data

Distance Computation

One-hot encoding
Metric Learning
Cosine
Euclidean Distance

Model Selection:

Centroid-based clustering (K-Means, K-medoids)
Connectivity-based clustering (hierarchical clustering)
Distribution-based clustering (Gaussian mixture models - using the expectation-maximization algorithm)
Density-based Clustering (DBSCAN, OPTICS)
Overlapping Clustering (Fuzzy C-means)

Model Evaluation:

1. Internal evaluation:  a clustering result is evaluated based on the data that was clustered itself.
	a. Davies–Bouldin index
	b. Dunn index
2. External evaluation: clustering results are evaluated based on data that was not used for clustering, such as known class labels and external benchmarks.
	a. Purity
	b. Rand measure
	c. F-measure
	d. Jaccard index

Model Optimization

1. Tune model
2. Modify model

Andrew Peng

Xueping Peng

Machine Learning Clustering Problems Workflow

Business Task

Data Pre-processing

Data Visualization

Distance Computation

Model Selection:

Model Evaluation:

Model Optimization