Towards automatic text-based estimation of depression through symptom prediction

Brain Informatics

Table 3 Experimental results on the development set of the DAIC-WOZ data set

Model	Binary Diagnosis Eval		PHQ-8 Score Severity Eval		5-Class Severity Eval
Model	\(miF_1\) \(\pm \sigma\)	\(maF_1\) \(\pm \sigma\)	\(\text {MAE}\) \(\pm \sigma\)	\(ma\text {MAE}\) \(\pm \sigma\)	miF1-5c \(\pm \sigma\)	maF1-5c \(\pm \sigma\)
Binary Diagnosis	0.806 ± 0.031	0.798 ± 0.031	-	-	-	-
5-Class Diagnosis	0.739 ± 0.049	0.713 ± 0.058	-	-	0.503 ± 0.049	0.237 ± 0.017
PHQ-8 Score Diagnosis	0.600 ± 0.030	0.507 ± 0.026	5.51 ± 0.06	6.01 ± 0.08	0.255 ± 0.024	0.159 ± 0.018
Symptom-based Diagnosis	0.752 ± 0.035	0.719 ± 0.047	3.61 ± 0.12	4.11 ± 0.18	0.442 ± 0.106	0.286 ± 0.063

All models were run five times with different seed values, and the average values with standard deviation are presented; miF1-5c (resp. maF1-5c) stands for the 5-class micro-averaged F1-score (resp. macro-averaged F1-score). Bold values indicates the best results for each model