ISO 24614-2:2011 语言资源管理 书面文本的单词分割 第2部分:汉语、日语和朝鲜语的单词分割

国际标准(ISO)

标准编号:ISO 24614-2:2011

中文名称:语言资源管理 书面文本的单词分割 第2部分:汉语、日语和朝鲜语的单词分割

英文名称:Language resource management — Word segmentation of written texts — Part 2: Word segmentation for Chinese, Japanese and Korean

发布日期:2011-09

标准范围

ISO 24614-1中定义的分词的基本概念和一般原则适用于汉语、日语和韩语。文本需要被分割成标记、单词、短语或一些其他类型的较小文本单元,以便在语言资源上执行某些计算应用,例如自然语言处理、信息检索和机器翻译。ISO 24614-2:2011仅限于将文本分割为单词或其他分词单元(WSU)。这项任务与词法或句法分析本身不同,尽管它在很大程度上依赖于词法句法分析。它也不同于构建一个词汇框架并识别其词条的任务,即引理和词素。后一项任务的框架由ISO 24611、ISO 24613和ISO 24615提供。ISO 24614-2:2011规定了为中文、日文和韩文划定WSU的规则。三种语言都有一些共同的规则,尽管每种语言都有自己独特的识别WSU的规则。讨论了它们的共同特点,然后为中国人、日本人和韩国人制定了不同的规则。

标准预览图

下载信息


下载该资料,将扣除 50 个积分

立即下载标准文件

大家都在看