数据质量问题:使用RoBERTa-CNN对社交媒体帖子进行自杀意图检测
自杀仍然是卫生领域的一个全球卫生问题, 哪些疾病迫切需要创新的早期发现和干预方法. 本文的重点是在SuicideWatch Reddit帖子中识别自杀意图,并提出了一种使用尖端的RoBERTa-CNN模型来检测自杀的新方法, RoBERTa的变体(鲁棒优化BERT方法). RoBERTa可以很好地捕获文本信息并在文本中形成语义关系. 通过添加卷积神经网络(CNN)头部, RoBERTa增强了从大量数据集中捕获重要模式的能力. 来评估RoBERTa-CNN, 我们在自杀和抑郁检测数据集上进行了实验,并获得了可靠的结果. 例如,RoBERTa-CNN在标准偏差(STD)为0的情况下达到98%的平均准确率.0009. 也超过了97.5%平均AUC值,STD为0.0013. 然后, RoBERTa-CNN优于竞争对手的方法, 展示了捕捉自杀意图的细微语言模式的稳健性和能力. 因此,RoBERTa-CNN可以很好地检测文本数据上的自杀意图.