一个小脚本从小说中过滤出经常出现的人名
花名获取利器!
作者:高鹏
小说中,人名后经常跟着一个动词或者介词,根据这一点可以找出常见的人名。下面用一个小shell脚本来玩一下^.^ 脚本如下:
#!/bin/sh
# name:filter_name.sh
# JH Gao <gaopenghigh@gmail.com>
# function:从小说中过滤出经常出现的人名
# 主要步骤如下:
# 编码转换
# 把动词替换为换行,于是每行的前几个字很可能就是人名,再把空行去除
# 取得每行的前3个字
# 过滤掉一些一般不是名字但又经常出现的字
# 过滤掉一个字的行
# 排序,统计,取前100个
iconv -f GB18030 -t utf-8 $1 \
| sed 's/[、,“”听笑说道想答。!:?]/\n/g' | sed 's/[[:space:]]*//g' | sed '/^$/d' \
| cut -nb 1-9 \
| grep -v -e '^$' -e [:\<\>父今哈咱\"还似转整间没他她它在地低众到却急这就怎最嗷但那是什么都拿曰吃二其每另否两么不了你啊只着突我吧各此又虽便即第嘿忽的忙] -e '其实' -e 'http' -e '……' -e '原来' -e '自己' -e '心想' -e '终于' -e '当然' -e '微笑' -e '淡淡' -e '们' -e '然后' -e '所以' -e '可以' \
| sed '/^.\{1\}$/d' \
| sort | uniq -c | sort -k 1 -n -r | head -n 100
执行结果如下:
$ ./filter_name.sh 天龙八部.txt
596 段誉
564 慕容复
532 木婉清
528 王语嫣
461 段正淳
358 鸠摩智
351 游坦之
323 南海鳄
297 阿紫
293 虚竹
265 阿朱
257 保定帝
249 萧峰
232 丁春秋
211 乌老大
203 马夫人
174 王夫人
160 段延庆
159 段公子
156 巴天石
143 朱丹臣
140 钟万仇
139 段誉心
137 乔峰
136 耶律洪
123 风波恶
119 寻思
113 云中鹤
108 邓百川
106 苏星河
105 钟夫人
103 王姑娘
101 少林寺
91 公冶乾
90 左子穆
90 全冠清
89 段誉见
89 李秋水
89 徐长老
87 童姥
86 慕容公
84 白世镜
84 段誉一
83 非也
83 赵钱孙
83 薛神医
81 黄眉僧
81 萧峰心
78 星宿派
78 崔百泉
77 司空玄
73 青袍客
73 大哥
72 很好
72 大伙儿
71 秦红棉
71 姊夫
71 妙极
70 乔帮主
69 镇南王
68 大声
67 阮星竹
67 薛慕华
67 萧远山
67 段誉大
67 星宿老
66 钟灵
66 司马林
62 阿碧
61 慕容博
60 虚竹心
55 段郎
54 霎时之
54 心中一
53 萧峰一
53 包三先
53 刀白凤
52 陈长老
52 诸保昆
51 玉虚散
51 江湖上
51 姑娘
50 摘星子
50 康广陵
50 姚伯当
49 飞库论
49 飞库制
49 颤声
49 」阿朱
49 电脑访
49 手机访
48 木姑娘
47 褚万里
47 虚竹一
47 少林派
46 高升泰
45 萧峰见
45 大理段
44 华赫艮
43 站起身
分享到:
相关推荐
一个测速小脚本,
js和jquery写的各种小脚本,共31个包括弹层,图片轮播,伸缩,导航等
一个备份的小脚本,linux系统向windows系统备份数据
这是一个非常基础的 Swift 语言的小脚本示例,这个脚本定义了一个简单的函数,用于计算两个整数的和
主要给大家分享了一个实时分析日志的python小脚本,文中给出了详细的介绍和示例代码供大家参考学习,对大家学习或者使用python具有一定的参考学习价值,需要的朋友们下面来一起看看吧。
小脚本4.71免费版
这是一个非常好用的MAX渲染关机小脚本。当你在渲染出图的时候,时间比较长,你就可以设置渲染完后文件保存路径,然后用这个小脚本。还有晚上要渲染图的时候,也可以进行设置。非常方便好用!!
Amplify一个允许内嵌图像缩放的小脚本
Scratch 是一款面向儿童和初学者的图形化编程工具,它允许用户通过拖拽积木式的代码...以下是一个简单的 Scratch 脚本示例,用于控制舞台上的角色“小猫”在点击绿旗时开始移动,并在碰到边缘时反弹:// 当绿旗被点击时
这是一个web应用中页面上的小工具包,我保存了很久了,现在拿出来感觉还是不错的,即便是不懂java编程的也同样可以应用,如果需要帮助,请给我留言
一个小脚本,用于从libinput-debug-events读取并根据识别的手势触发键命令_Shell_下载.zip
linux性能监测小脚本,小巧实用的小脚本
一个小脚本,允许各种键盘以默认启用的功能键启动。___下载.zip
高通平台进9008模式小脚本,不需要强制上拉BOOT管脚,
一个加载js文件的小脚本
这是一个简单的汇编语言(x86架构)的示例程序,它将两个数字相加并将结果打印到屏幕上。这个示例使用NASM(The Netwide Assembler)作为汇编器,运行在Linux操作系统上。
生成MAC地址小脚本
一个linux信息搜集小脚本 主要用于应急响应,在Debian或Centos下都可使用
一个简单的window小脚本程序,专门去掉桌面图标左下角莫名其妙的图标出现,可以拿来用,作为系统优化的一个工具。
python2.7关机小脚本,可以定时关机。代码短小精悍。