数据集
SSCMA(SensorCraft Model Assistant) 支持多种数据集。您可以在互联网上浏览并下载不同的数据集,或是自行标注、制作数据集。
互联网数据集
SSCMA
SSCMA 目前提供以下官方数据集,用于对应模型的训练和测试。
对于使用命令下载的数据集,请确保在运行命令前处于 SSCMA 项目根目录,命令会自动下载数据集并将其保存在当前目录下的名为 datasets
的文件夹中,并完成解压。
- sh
wget https://files.seeedstudio.com/sscma/datasets/meter.zip -P datasets && unzip datasets/meter.zip -d datasets
- sh
wget https://files.seeedstudio.com/sscma/datasets/coco_mask.zip -P datasets && unzip datasets/coco_mask.zip -d datasets
Roboflow
Roboflow 是公共计算机视觉数据集的免费托管平台,支持的格式包括包括 CreateML JSON、COCO JSON、Pascal VOC XML、YOLO 和 Tensorflow TFRecords 等,还额外添加了对应数据集的缩小和增强版本。
TIP
我们十分推荐您在这里寻找数据集,您只需要注册一个账号,就可以免费下载数百个来自互联网的不同数据集,用于满足您的特定需求。
你可以在 Roboflow 上找到一些 SSCMA 的数据集,如下所示:
Dataset | Description |
---|---|
Digital Meter Water | Digital Meter Water Dataset |
Digital Meter Seg7 | Digital Meter Seg7 Dataset |
Digit Seg7 Classification | Digit Seg7 Classification Dataset |
Kaggle
Kaggle 是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。Kaggle 也提供了数以千计的数据集,您可以访问 Kaggle 数据集 挑选适合您需求的数据集。
自定义数据集
创建自定义数据集通常包括以下步骤:
收集数据: 收集与问题域相关的数据。这些数据可以是文本、图像、音频或视频等格式。
整理数据: 对收集的数据进行清洗、标注、去重等操作,以确保数据的准确性和一致性。这一步骤是确保训练出的模型准确性的关键。
划分数据集: 将整理好的数据集划分成训练集、验证集和测试集。通常采用 70%、15%、15% 的比例划分数据集。
转换数据格式: 将整理好的数据集转换成模型可以读取的格式,如文本格式、图像格式等。
加载数据集: 将转换好的数据集加载到模型中进行训练和测试。在加载数据集时需要注意的是,要使用合适的数据加载器和批量大小。
数据增强 (可选,建议由 SSCMA 完成): 对数据集进行数据增强,如旋转、翻转、剪裁等操作,以增加数据集的多样性和数量。
数据集标注
标注数据集是将数据集中的样本进行分类或者打上标签的过程,通常需要进行人工干预。
标注数据集的过程是非常关键的,它决定了训练出的模型的质量。下面是标注数据集的一些常见方式和工具:
手动标注: 通过手工对数据集进行标注的方式,对每个样本进行标注,可以确保标注的准确性,但是速度较慢。
半自动标注: 将人工标注的结果应用到其他数据集中,减少标注时间,但标注的准确性可能有所降低。
自动标注: 使用一些算法模型对数据进行自动标注,例如关键字提取、文本分类等。虽然可以提高标注效率,但标注的准确性也可能会受到影响。
常用的数据标注工具包括:
LabelImg: 适用于图像标注的工具,支持多种标注格式,如 PASCAL VOC、YOLO 等。
Labelbox: 一个在线标注工具,支持图像、文本、视频等格式的标注,具有多种标注模板和自定义标注模板功能。
Doccano: 一款用于文本分类和序列标注的开源标注工具,支持多种标注格式,如 NER、POS 等。
Annotator: 一个轻量级的在线标注工具,支持图像、文本、音频等格式的标注。
VGG Image Annotator (VIA): 一个用于图像标注的开源工具,支持多种标注格式,如 PASCAL VOC、YOLO 等。
COCO Annotator: 一个基于 Web 的图像和视频注释工具,可用于目标检测、分割、关键点标注等任务。
以上是一些常见的数据标注工具,不同的工具适用于不同的数据集类型和标注需求,可以根据实际需求进行选择。