NLP任务一些常用的数据集集锦

1. 文本分类

数据集: AG News

  • 下载链接: AG News Dataset
  • 格式: 每个样本包含新闻文本及其对应的类别标签。
  • 1. AG News

    背景:
    AG News是一个用于文本分类的广泛使用数据集,主要用于新闻分类任务。该数据集由四个类别组成:世界、体育、商业和科技。

    内容

    • 类别: World, Sports, Business, Science/Technology
    • 样本数量: 120,000条新闻。
  • {
        "title": "China's economy grows at 6.9% in Q4",
        "description": "China's economy grew by 6.9% in the last quarter...",
        "label": "World"
    }
    

2. 命名实体识别(NER)

数据集: CoNLL 2003 NER

  • 下载链接: CoNLL 2003 Dataset
  • 格式: 每个单词及其对应的实体标签,便于处理NER任务。
  • 背景:
    CoNLL 2003是一个标准的数据集,用于命名实体识别任务,包含对新闻文章中人名、地点和组织的标注。

    内容:

  • 标签: B-PER (人名), B-LOC (地点), B-ORG (组织), O (其他)
  • 样本数量: 包含数千个标注句子。
  • EU B-ORG
    rejects O
    German B-MISC
    calls O
    for O
    more O
    action O
    .
    

3. 问答(QA)

数据集: SQuAD Mini

  • 下载链接: SQuAD Dataset
  • 说明: SQuAD Mini是一个小规模的子集,适合快速实验。
  • 格式: 包含问题、上下文和答案。
  • 背景:
    SQuAD是一个用于问答系统的热门数据集,包含大量的问答对,旨在促进自然语言处理中的问答研究。

    内容:

  • 问题: 针对给定上下文生成的问题。
  • 上下文: 提供问题答案的文本片段。
  • 答案: 在上下文中定位的答案。
  • {
        "question": "What is the capital of France?",
        "context": "Paris is the capital of France.",
        "answer": "Paris"
    }
    

4. 文本生成

数据集: Shakespeare Dataset

  • 下载链接: Shakespeare Text
  • 格式: 纯文本文件,包含莎士比亚的作品,适合文本生成任务。
  • 背景:
    Shakespeare文本数据集包含莎士比亚的作品,常用于文本生成任务,尤其是生成与莎士比亚风格相似的文本。

  • 内容:

    • 纯文本格式,包含多个故事、剧本等。
    • Once upon a time, there was a princess who lived in a castle. 
      She loved to explore the nearby forest.
      

5. 文本蕴涵(NLI)

数据集: SNLI Mini

  • 下载链接: SNLI Dataset
  • 说明: SNLI有一个小型子集,适合快速测试。
  • 格式: 包含前提、假设和对应标签。
  • 背景:
    SNLI是一个用于文本蕴涵任务的标准数据集,旨在研究句子之间的关系,如蕴涵、对立或中立。

  • 内容:

    • 关系类型: Entailment, Contradiction, Neutral
    • 样本数量: 包含超过57,000个句子对。
    • {
          "premise": "A man is playing a guitar.",
          "hypothesis": "A man is making music.",
          "label": "entailment"
      }
      

6. 机器翻译

数据集: Multi30k

  • 下载链接: Multi30k Dataset
  • 格式: 图像描述的文本和翻译文本。
  • 背景:
    Multi30k是一个用于机器翻译的多语言数据集,提供图像的描述文本,并翻译为多种语言。

  • 内容:

    • 图像描述和其对应的翻译文本。
    • English: "A person is riding a horse."
      German: "Eine Person reitet ein Pferd."
      

7. 对话系统

数据集: Persona-Chat

  • 下载链接: Persona-Chat Dataset
  • 格式: 包含对话的逐句内容。
  • 背景:
    Persona-Chat数据集是为了训练对话系统而设计的,包含了基于特定个性生成的对话。

  • 内容:

    • 每个对话由多轮交互组成,包含用户输入和系统响应。
    • {
          "dialogue": [
              "Hi! How are you?",
              "I'm good, thank you! And you?"
          ],
          "persona": [
              "I love traveling.",
              "I'm a vegetarian."
          ]
      }
      

8. 情感分析

数据集: Sentiment140 Mini

  • 下载链接: Sentiment140 Dataset
  • 说明: 可以下载较小的子集用于情感分析。
  • 格式: 包含推文ID、情感标签和文本内容。
  • 背景:
    Sentiment140是一个用于情感分析的Twitter数据集,包含从推特中提取的文本和情感标签。

  • 内容:

    • 情感标签: 0 (负面), 4 (正面)
    • 样本数量: 包含160万条推文。
    • "tweet_id","sentiment","text"
      "1234567890","0","I love this product!"
      "1234567891","4","This is the worst experience ever."
      

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/884659.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

4. 数据结构: 对象和数组

数字、布尔值和字符串是构建数据结构的原子。不过,许多类型的信息需要不止一个原子。对象允许我们对值(包括其他对象)进行分组,从而构建更复杂的结构。到目前为止,我们所构建的程序都受到限制,因为它们只能…

maven安装教程(图文结合,最简洁易懂)

前提 所有的Maven都需要Java环境,所以首先需要安装JDK,本教程默认已安装JDK1.8 未安装JDK可看JDK安装教程:JDK1.8安装教程 主要分为两个大步骤:安装、配置 一、下载和安装Maven 1、将maven解压后的文件夹复制到D盘根目录 (最好…

努比亚 Z17 NX563J Root 教程三方REC刷写工具教程

教程:1,自用成功 正常链接列表 adb devices 检查fastboot链接列表 fastboot devices 解锁设备fastboot oem nubia_unlock NUBIA_NX563J 我用的解锁设备是:fastboot flashing unlock 1.打开开发者选项。将OEM解锁的按钮打开 2.下载附件努…

苹果更新过时产品:三款 Mac 成“古董”,九款 Mac 彻底“停产”

9 月 24 日消息苹果今天更新了“过时产品”名单,新增加了三款 Mac 型号,并将另外九款 Mac 型号从“过时产品”归为“停产产品”。 新入列的 Mac 过时产品: MacBook Air(视网膜显示屏,13 英寸,2018 年&…

物联网迎来下半场,国产 IoTOS 打造企业级智能硬件云服务平台

如有需求,文末联系小编 氦氪云 IoTOS 是一套先进的企业级物联网解决方案平台,为万物互联提供可靠安全稳定的终端接入、协议适配、消息路由、数据存储和分析、应用使能等核心功能。面向物联网领域中的终端设备商、系统集成商、应用服务商、能力提供商等&a…

Unity 设计模式 之 行为型模式 -【中介者模式】【迭代器模式】【解释器模式】

Unity 设计模式 之 行为型模式 -【中介者模式】【迭代器模式】【解释器模式】 目录 Unity 设计模式 之 行为型模式 -【中介者模式】【迭代器模式】【解释器模式】 一、简单介绍 二、中介者模式(Mediator Pattern) 1、什么时候使用中介者模式 2、使用…

CICD 持续集成与持续交付

一 、CICD是什么 CI/CD 是指持续集成(Continuous Integration)和持续部署(Continuous Deployment)或持续交付(Continuous Delivery) 1.1 持续集成(Continuous Integration) 持续集…

卸载WSL(Ubuntu),卸载linux

禁用 WSL 功能 打开 Windows 功能: 按下 Windows R 打开运行对话框,输入 optionalfeatures,然后按回车。 禁用 WSL: 在弹出的 Windows 功能窗口中,找到 适用于 Linux 的 Windows 子系统(Windows Subsystem…

FTP 服务器 linux安装

文章目录 前言一、了解二、安装启动匿名连接 三、创建用户1. 创建系统用户2. 连接3. 连接不上? 5004. 还是连接不上? 5005. 还还还是连不上?530 补充关于创建用户useradd 命令如何设置用户不能登录shell不用系统指定的家目录 vsftpd 配置chro…

深刻理解Redis集群(上):RDB快照和AOF日志

RDB快照 save同步阻塞 客户端 服务端 .conf配置文件 # The filename where to dump the DB dbfilename dump.rdb# rdb-del-sync-files是Redis配置文件中的一个选项,它的作用是在主节点上执行BGSAVE或AOF持久化操作时,删除同步锁文件,以释放磁…

git工具指令

下面是常用的Git命令清单,几个专用名称的译名如下: Workspace :工作区 Index /Stage:暂存区 Repository:仓库区(或本地仓库) Remote:远程仓库新建代码库 在当前目录新建一个Git代…

java初识

目录 1.命名规范 2.数据类型 3.数据类型转换(就是见识一下) 4.java里面的输入输出 4.1判断是不是偶数 4.2判断是不是闰年 4.3其他的输入输出 4.4顺序的问题 5.分支语句补充 5.IDEA里面的调试 6.continue的一个案例 1.命名规范 这个命名规范就…

【Java SE】初遇Java,数据类型,运算符

🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 1. Java 概述 1.1 Java 是什么 Java 是一种高级计算机语言,是一种可以编写跨平台应用软件,完全面向对象的程序设计语言。Java 语言简单易学…

Java基于easyExcel的自定义表格格式

这里用的到easyExcel版本为3.3.4 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.3.4</version></dependency> 效果 代码部分 package com.tianyu.test;import com.alibaba.exc…

57 长短期记忆网络(LSTM)_by《李沐:动手学深度学习v2》pytorch版

系列文章目录 文章目录 系列文章目录长短期记忆网络&#xff08;LSTM&#xff09;门控记忆元输入门、忘记门和输出门候选记忆元 (相当于RNN中计算 H t H_t Ht​)记忆元隐状态 从零开始实现初始化模型参数定义模型训练和预测 简洁实现小结练习 长短期记忆网络&#xff08;LSTM&a…

【d53】【Java】【力扣】24.两两交换链表中的节点

思路 定义一个指针cur, 先指向头节点&#xff0c; 1.判断后一个节点是否为空&#xff0c;不为空则交换值&#xff0c; 2.指针向后走两次 代码 /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}*…

[数据集][目标检测]辣椒缺陷检测数据集VOC+YOLO格式695张5类别

重要说明&#xff1a;数据集图片里面都是一个辣椒&#xff0c;请仔细查看图片预览&#xff0c;确认符合要求下载 数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文…

Nacos 是阿里巴巴开源的一款动态服务发现、配置管理和服务管理平台,旨在帮助开发者更轻松地构建、部署和管理微服务应用。

Nacos 是阿里巴巴开源的一款动态服务发现、配置管理和服务管理平台&#xff0c;旨在帮助开发者更轻松地构建、部署和管理微服务应用。Nacos 提供了一系列的功能来支持服务注册与发现、配置管理、服务元数据管理、流量管理、服务健康检查等&#xff0c;是构建云原生应用和服务网…

SpringCloud 2023各依赖版本选择、核心功能与组件、创建项目(注意事项、依赖)

目录 1. 各依赖版本选择2. 核心功能与组件3. 创建项目3.1 注意事项3.2 依赖 1. 各依赖版本选择 SpringCloud: 2023.0.1SpringBoot: 3.2.4。参考Spring Cloud Train Reference Documentation选择版本 SpringCloud Alibaba: 2023.0.1.0*: 参考Spring Cloud Alibaba选择版本。同时…