分类目录归档:爱PYTHON

一次较大规模数据处理的经历 PYTHON版

前一段时间遇到了一次数据处理的问题,原始数据是CSV数据(逗号分隔),近百万条,要根据不同的公式对每一条进行计算。在使用EXCEL进行计算时,只要一动就会重新计算,而且时常出现无响应的状态,有好几次强行关闭导致重头再来。

考虑到数据量大,使用EXCEL计算可能不适合,才导致不停地死机。最初打算使用数据库来计算,没有数据量的限制,在查询和更新的时候速度很快。但是每一行计算的时候,对于结果不是简单地赋值,而是分段乘以比例再累加计算(类似于电费阶梯计算),思来想去,不知道如何使用SQL语句实现,有可能需要很多个不同的语句。与其这么麻烦,不如写程序来实现,于是打算使用现在很流行的PYTHON语言来处理,一是简单易学,二是有丰富的模块,说不定就有解决该问题的方法。

经过了解,有一个模块PANDAS能够方便的处理CSV数据,而且非常灵活,打算试一试,最终成功解决了问题,现将过程记录以便以后再使用。 继续阅读

PYTHON学习之sorted函数

PYTHON是一种非常灵活的语言,可以用来快速开发,语言简洁,而且功能强大,最近在处理数据时遇到了排序的问题,使用了SORTED函数,不得不感叹PYTHON的强大。

问题描述:遍历输出一个字典数据,输出前按照KEY的第9至12位数据进行排序。

第一步,认识sorted函数

Sorted可以对所有的可迭代对象进行排序,在PYTHON中,list、tuple、set、dict等数据结构都是可迭代的对象,因此都可以使用sorted函数进行排序,尤其是要进行遍历输出的时候,非常方便。sorted的语法是:

sorted(iterable, key=None, reverse=False)

iterable是可迭代的对象,key是排序的关键字,reverse是排序的顺序,默认是升序

第二步,认识lambda函数

lambda是匿名函数,不用单独定义,使用起来方便,正常的函数必须先定义,再使用。而lambda只用简单定义,即可实现一个函数的功能。

常规函数的定义和使用:

def sum(x,y):
    return x+y

result=sum(5,3)

使用lambda定义匿名函数:

sumFunc=lambda x,y:x+y
result=sumFunc(5,3)

第三步,解决问题

所要排序的数据时一个字典,排序的依据是KEY中的第9至12位数据,然后输出字典里面的数据。

for item in sorted(myDict,key=lambda item:item[9:12])
    print(item,myDict[item])

PYTHON数据结构学习之集合SET

PYTHON中的SET是一个无序且不重复的集合,第一次用到SET是有大量的元素需要去除重复,只留下唯一的元素,类似于数据库的DISTINCT关键字运算。当然,SET除了去除重复功能之外,还能进行集合的运算,比如集合的交、并、差,用起来非常方便。今天就来学习学习PYTHON中的集合SET。

1 SET的表现形式
列表的关键词是LIST,用[]表示;元组的关键词是TUPLE,用()表示;集合的关键词是SET,用set()或者花括号表示(花括号中必须有元素)。

2 SET的创建
sets=set()                 #创建空集合
sets={1,2}                 #创建两个元素的集合
sets=set([1,2])        #通过迭代对象创建

3 SET添加与删除
sets.add(value) #添加元素
sets.remove(value) #删除某元素
sets.discard(value) #删除某元素(如存在)
sets.update([1,2,3]) #添加多个元素
sets.clear() #删除所有元素

4 SET的交、并、差操作
#先定义两个集合
a={1,2,3}
b={3,4,5}
#交集运算
a&b
#并集运算
a|b
#差集运算
a-b 或者 b-a

5 其它
在使用的过程中,还用到了两个功能,一是统计集合的个数:len(sets);二是对集合的元素排序,sorted(sets),由于集合是无序的,因此sorted(sets)返回的是一个列表。

PYTHON数据结构学习之RANGE

程序有三种控制结构,顺序、循环和选择,顺序就是1、2、3、4一条一条地执行,循环对一个集合的每一个元素进行操作,选择则是有条件地执行语句。在C、JAVA之类的语言中,循环语句常见的有for,for(i=0;i<n;i++){}就是循环n次,执行{}里面的内容。但是在PYTHON中for语句不是这样写的,通常的写法是for i in range(10),那么range是什么意思呢,今天就来学习一下。

for i in range(10),首先range是一个对象,也是一个序列,因此能够使用in 这个关键字,意思是在某某里面,for 对于range对象里面的每个元素进行遍历。

一、RANGE的创建
range(stop)                       #默认从0开始,小于等于stop-1
range(start,stop[,step])     #按照开始、结束生成序列,步长可以设置,相当于[0,stop),含前不含后,下面是一些例子。start没填,默认为0,step默认为1。
data=range(10)               #创建序列[0,10)
data=range(0,10)            #创建序列[0,10)
data=range(0,10,2)         #创建序列[0,10),步长为2

二、RANGE的方法
data.count(3)                 #统计元素3出现次数
data.index(3)                  #返回元素3的位置
data.start                        #range的起始值(含)
data.stop                        #range的终止值(不含)
data.step                        #range对象的步长

三、其他FOR循环方式
刚才说过,for i in range(19),range只是序列,因此这不是唯一的表达方式:也可以用下面几种:
for i in range(10)
for i in (0,1,2,3,4,5,6,7,8,9)
for i in [0,1,2,3,5,6,7,8,9]

PYTHON数据结构学习之元组TUPLE

上次学习了列表LIST,这次学习元组TUPLE,这两个数据结构非常像,可以说TUPLE跟列表一样,只不过是不能修改的。因此如果存储常量时,可以使用元组,不用担心数据被修改。但是如果存储的某个元素是列表,那么这个列表中的元素是可以修改的。

1 创建元组
arr=()              #创建一个空元组
arr=tuple()     #创建一个空元组
arr=1,             #创建元组,只有1
arr=(1,)           #创建元组,只有1
arr=tuple([1,2,3]) #从可迭代数据创建
也就是说,创建元组时,逗号很关键,可以没有括号,但是得有逗号。

2 元组的方法
LIST有很多方法,TUPLE与列表类似,但是它是只读的,因此方法很少,没有添加和修改元素的方法。
arr.count(1)       #统计元素1的个数
arr.index(1)       #查找元素1的位置

3 元组的其它方法
元组和列表一样,属于可迭代类型数据,因此有一些通用方法,比如min,max,sum,x in arr,x not in arr等操作。

4 元组的遍历
遍历方面,与列表相同。

PYTHON数据结构学习之列表LIST

“人生苦短,我用Python”说得很有道理,如果使用PYTHON进行数据处理,解决业务问题,而不是为了专门研究技术的话,PYTHON确实是一个不错的选择。不用考虑太多的技术细节,只用几句简单的程序就能解决复杂的数据处理问题,那么何乐不为呢?!

最近在学PYTHON,看到了列表这种数据结构,List一点也不陌生,因为数据结构与算法里面讲过链表,经常使用list这个单词。PYTHON里面的列表,就是由N个元素组成的序列,放在[]中,用逗号隔开,元素可以是整数、实数、字符串、列表、元组等任何类型,并且每个元素的类型也可以是不一样的,总之看起来十分灵活。

1 列表的创建
arr=list()                   #创建空列表
arr=[1,2,3,4,5,6]      #直接赋值创建
arr=list(“abcd”)        #根据一个可迭代的数据创建
PYTHON列表中的元素类型非常灵活,并不是像C语言的array那样,整形全是整形,字符型全是字符型,它们可以是任意一种数据类型,例如:
arr=[1,”a”,”abc”,[2,3],(4,5)]
该列表,第1个元素为数字1;第2个为字符“a”,第3个为字符串”abc”,第4个为列表,第5个为元组。

2 列表的访问
列表可以像数组一样,通过下标访问 ,添加、删除元素,下标像其他语言一样,从0开始。
print(arr[0])                     #显示第1个元素
arr[0]=”888″                   #修改第1个元素的值
del arr[0]                        #删险第1个元素
arr.append(value)          #在末尾追加一个元素
arr.pop()                         #删险末尾的一个元素
arr.insert(1,”a”)              #在下标1之前插入元素“a”
arr.move(“a”)                  #删除第一个出现的字符“a”

3 列表的遍历
经过学习,列表遍历使用For语句,但是具体实现起来,又分很多种方法:
#通过元素进行遍历
for item in arr:
print(item)
#通过下标进行遍历
for index in range(0,len(arr)):
print(arr[index])
#通过下标和值进行遍历
for index,value in enumerate(arr):
print(index,value)

4 查找元素
#判断一个元素是否在列表arr中,直接使用in判断即可:
if “a” in arr:
print(“a 在列表arr中。”)
#查找字符”a”,并返回第1次出现的下标,如果不存在,就抛出异常:
arr.index(“a”)
#统计字符“a”出现的次数
arr.count(“a”)

6 元素排序
#对列表升序排列,默认
sorted(arr,reverse=False)
#对列表降序排列
sorted(arr,reverse=True)

7 列表的统计
如果元素都是数值型的话,列表可以进行一些统计,当然其中如果由非数值型的元素,程序会抛出异常:
#列表中的最大值
max(arr)
#列表中的最小值
min(arr)
#列表值汇总
sum(arr)

继续阅读

PYTHON登录FTP服务器下载文件

最近需要定时从FTP服务器上面下载文件,做简要分析,由于是日常工作,工作量大,但是没有技术含量,纯粹是消耗时间,于是决定尝试使用PYTHON写程序,每天自动下载。使用FTP下载的方法很多,使用PYTHON写程序之前用过两种方法,一种是用我的电脑打开FTP,登录之后复制想要的文件;第二种是使用DOS批处理文件来下载,第二种比第一种效率要一些。下面就来说说这些下载方法:

一、我的电脑访问
这种方法最简单,直接在我的电脑地址栏中输入FTP服务器地址,输入用户名和密码,就可以下载所需的文件。缺点是,每天都需要打开一次,输入用户名和密码,一次使用可以,每天都这样还是比较繁琐的。

二、DOS批处理
将FTP服务器地址、用户名、密码,以及文件存放的目录等内容保存好,一运行,就能自动登录,并下载所需的文件。该方法需要写两个bat文件,getFtpData.bat用于保存FTP命令,main.bat用于调用getFtpData.bat文件,使用该方法非常简单。

getFtpData.bat:
open ***.***.***.**
user username password
cd data
get plan1.csv
get plan2.csv
get plan3.csv
bye

main.bat:
ftp -n -s:”getFtpData.bat”
继续阅读

PYTHON合并CSV文件的实践

最近尝试使用PYTHON处理CSV数据,由于CSV文件有好几个,需要提前拼接,然后再处理,因此遇到了PYTHON对文件进行合并的问题。此次尝试了两种方法:一是调用CMD命令处理;二是使用PYTHON写程序处理,经过尝试,觉得第一种方法简单实用。假设文件夹下面有NCSV文件,要将这些文件都汇总到data.csv,下面使用上述两种方式实现:

一、调用CMD命令合并文件
command=”type %s >>%s” % (filename,newFileName)
os.system(command)
DOS命令TYPE的作用是将文件内容显示出来,跟LINUX相似,可以重定向但文本中,因此可以遍历该目录下面所有的CSV文件,生成DOS命令,然后执行,就能够将多个CSV文件合并到一个文件里面。类似下面多个命令:
TYPE one.csv >>data.csv
TYPE two.csv >>data.csv
TYPE three.csv >>data.csv

使用该方法的特点是比较简单,直接调用DOS命令就能够将文件合并了,并不用打开文件读取文件内容,再写入到新的文件。

二、使用PYTHON程序合并文件
这种方面是读取CSV文件的每一行,然后追加到目标文件里面,这里使用with open语句打开。遍历这个文件夹下的所有.csv文件,然后逐个打开,一行一行追加到新文件中。
with open(item,”r”) as src,open(newFile,”a”) as des:
for line in src:
des.write(line)

Python操作Excel类库Openpyxl之初体验

以前尝试过通过win32com方式读写excel,Win32com调用Excel是最好的一个方式,因为直接调用的是windows平台的软件,可靠性要高一些,另外excel出错的可能性也小一些。由于win32com包怎么也找不到,于是这次尝试使用openpyxl类库读写excel,选择openpyxl的原因在于它能够读取和写入Excel文件,相对于xlrd、xlwt方便一些。

1 安装openpyxl

安装方法非常简单,直接使用pip即可:
pip install openpyxl
它能自动下载和安装openpyxl所依赖的包,然后再安装openpyxl。
但是本人使用的机器是离线的,因此只能采用离线安装的方式,经过尝试,需要下载以下安装包:
et_xmlfile
jdcal
openpyxl
上面三个安装依次下装并安装,注意版本,比如Openpyxl最新版本号是3.0.5,那么et_xmlfile和jdcal下载时应注意版本号,否则会出错。不过出错也没关系,因为出错信息中会提示所依赖包的版本号,重新下载一遍也没关系。

2 操作Excel
2.1 导入openpyxl
继续阅读

PYTHON学习:使用POP3协议下载邮件

以前使用电脑端访问邮箱时,知道有POP3、SMTP协议,随首技术的发展,最近又有了很多种选择,尤其是手机端,看到了每多种连接方式,比如IMAP、EXCHANGE方式,邮件还带同步的,比如电脑端改变了邮件,手机端也同步了,因此想写几篇文章学习一下这些协议和新的技术,此次看的是POP3协议。
POP3是Post Office Protocol – Version 3的简写,中文意思是简单邮局协议(版本3),它是由RFC1939文件描述的。POP3协议的作用是动态地从服务器上下载邮件,然后删除服务器上的邮件(新版的POP3可以不删除),除此之外,POP3协议并没有提供更多的对于邮件的操作。相应的,有一种更高级的IMAP4协议,能够支持对邮件更多的操作。
下面是POP3协议所支持的命令:

命令
描述
USER [username]
处理用户名
PASS [password]
处理用户密码
APOP [Name,Digest]
认可Digest是MD5消息摘要
STAT
服务器发回关于邮箱的统计资料,如邮件总数和总字节数
UIDL [Msg#]
处理返回邮件的唯一标识符,POP3会话的每个标识符都将是唯一的
LIST [Msg#]
处理返回邮件数量和每个邮件的大小
RETR [Msg#]
处理返回由参数标识的邮件的全部文本
DELE [Msg#]
处理服务器将由参数标识的邮件标记为删除,由quit命令执行
RSET
处理服务器将重置所有标记为删除的邮件,用于撤消DELE命令
TOP [Msg# n]
处理服务器将返回由参数标识的邮件前n行内容,n必须是正整数
NOOP
服务器返回一个肯定的响应
QUIT
终止会话

继续阅读