最近有一个需求,就是我有一列数据,这列数据中的每一行表示完成某一项目的所有单位,我想统计这一列数据中,不同单位两两之间的合作次数。数据格式如下:

1
2
3
4
5
6
7
8
9
10
a;
a;b;c
a;c;
b;d;e
b;f;
g;h;i;j
a;g;h
a;k
d;l;m
a;c;g

  上面的每个字母都表示单位名称,不同单位之间用“;”隔开。实现功能的代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
# gen_matrix.py
import pandas as pd

# 将原始数据存在list.txt文件中,并且放在和这一脚本文件相同的目录下
fp_list = open('list.txt',encoding='utf-8')
# 初始化一个字典,用于存放所有矩阵数据,矩阵数据用“二维”字典存放
matrix = {}
# cnt计数用于记录当前处理的行数
cnt = 1
# 用while循环遍历txt文件中的每一行
while True:
namestr = fp_list.readline()
if not namestr:
break
# 去掉每一行的换行符
namestr = namestr.split('\n')[0]
# 根据分隔符“;”将每一行的字段进行拆分,并放到names这个list中
name_wo_sem = namestr.split(';')
names = []
for name in name_wo_sem:
# 只有非空的name才是有意义的,因为有时候如果这一行的末尾也有分隔符,就会有一个空的name
if not name:
pass
else:
names.append(name)

# 更新矩阵的行索引,逐行读取之后,如果matrix中没有这个键值就加一个新的
for name in names:
if name in matrix:
pass
else:
matrix[name] = {}

# 更新矩阵的列索引,并给矩阵赋初值0
namelist = list(matrix.keys())
for name in namelist:
for subname in namelist:
if subname in matrix[name]:
pass
else:
matrix[name][subname] = 0

# 更新矩阵内容,把这一行中存在的合作关系在矩阵中的对应位置加一
for i in range(len(names)-1):
for j in range(i+1, len(names), 1):
matrix[names[i]][names[j]] = matrix[names[i]][names[j]] + 1

# 打印输出当前行数
print('line ' + str(cnt) + ' finished')
cnt = cnt + 1

# 实际上这种合作关系是没有方向的,所以只需要一个上三角矩阵
# 下面就把矩阵中的相同含义的合作关系加在一起
# 比如a和b有合作,b和a也有合作,它们两个值就可以加起来给其中一个,然后把另一个赋0
namelist = list(matrix.keys())
for i in range(len(namelist)-1):
for j in range(i+1, len(namelist), 1):
matrix[namelist[i]][namelist[j]] = matrix[namelist[i]][namelist[j]] + matrix[namelist[j]][namelist[i]]
matrix[namelist[j]][namelist[i]] = 0

# 把嵌套的字典转换成字典list的形式,便于后续转换成DataFrame格式
mlist = []
for i in range(len(namelist)):
mlist.append(matrix[namelist[i]])

# 转换为DataFrame格式,然后写入到excel中
df = pd.DataFrame(mlist, index=namelist)
print(df)
df.to_excel('Matrix.xlsx')

  最终结果如下图所示。实际测试时发现,所生成的矩阵大部分情况下是一个稀疏矩阵,但是到后面随着数据量的越来越大,矩阵中遍历所需要的时间也越来越长。算法的效率还有待提高,但是实现基本功能应该没有问题。