全球微资讯！值得与Python结合使用的五个新颖的数据科学工具

首页 > 生活 >

全球微资讯！值得与Python结合使用的五个新颖的数据科学工具

2023-06-19 17:14:13 来源：清一色财经

你已经在使用NumPy、Pandas和scikit-learn了吗？本文介绍了五个功能更强大的Python数据科学工具，有望在您的工具包中占有一席之地。

译者 | 布加迪

审校 | 重楼

(资料图片仅供参考)

Python庞大的数据科学工具生态系统对用户有很大的吸引力。生态系统如此庞大而丰富的唯一缺点是，有时最好的工具可能会被忽视。

下面介绍了其中几款面向Python的最优秀的或不太知名的数据科学项目。Polars等一些项目得到了比以前更多的关注，但依然值得更广泛的关注，ConnectorX等其他工具则是隐藏的瑰宝。

1.ConnectorX

大部分数据位于数据库的某个地方，但计算操作通常在数据库外面进行。为实际工作从数据库倒腾数据可能会减慢速度。ConnectorX将数据从数据库加载到Python中的许多常见数据整理工具中，并通过尽量减少要完成的工作量来保持高速度。

像后面讨论的Polars一样，ConnectorX在其核心使用Rust库。这便于优化，比如说能够在分区的同时从数据源加载数据。PostgreSQL中的数据可以通过指定分区列来加载。

除了PostgreSQL外, ConnectorX还支持从MySQL/MariaDB、SQLite、Amazon Redshift、Microsoft SQL Server、Azure SQL以及Oracle读取数据。结果可以汇集到Pandas或PyArrow，或者通过PyArrow汇集到Modin、Dask或Polars。

2.DuckDB

使用Python的数据科学人员应该了解SQLite，这是一种用Python打包的小巧、但功能强大且快速的关系数据库。由于它作为进程内库来运行、而不是作为单独的应用程序来运行，因此属于轻量级，且响应迅速。

DuckDB有点像有人回答这个问题：“如果我们设计面向OLAP的SQLite，会怎么样？”与其他OLAP数据库引擎一样，它使用列式数据存储，并针对长时间运行的分析查询工作负载进行了优化。但是它提供了您期望从传统数据库获得的所有功能，比如ACID事务。而且没有单独的软件套件需要配置。您使用单单一个pip install命令，即可在Python环境中让它运行起来。

DuckDB可以直接摄取采用CSV、JSON或Parquet格式的数据。为了提高效率，还可以根据键（比如按年和按月）将生成的数据库划分为多个物理文件。查询起来与任何其他基于SQL的关系数据库相似，但拥有额外的内置特性，比如能够获取数据的随机样本或构造窗口函数。

DuckDB还有一小批实用的扩展，包括全文搜索、Excel导入/导出、直接连接到SQLite和PostgreSQL、Parquet文件导出以及支持许多常见的地理空间数据格式和类型。

3.Optimus

最繁琐的工作之一就是清理和准备数据，用于以DataFrame为中心的项目。Optimus是一种一体化工具集，可用于加载、探索和清理数据，以及将数据写回众多数据源。

Optimus可以使用Pandas、Dask、CUDF（及Dask + CUDF）、Vaex或Spark作为底层数据引擎。数据可以从Arrow、Parquet、Excel、各种常见的数据库源或平面文件格式（比如CSV和JSON）加载，并保存成这些格式。

数据操作API类似Pandas，但添加了.rows()和.cols()访问器，以便易于执行对数据框排序、按列值筛选、根据标准更改数据或根据某些标准缩小操作范围之类的操作。Optimus还随带处理器，用于处理常见的实际数据类型，比如电子邮件地址和URL。

Optimus可能存在的一个问题是，它仍在积极开发中，但上一次正式发布是在2020年。这意味着它可能不像您堆栈中的其他组件那样是最新的。

4.Polars

如果您花费大量时间来处理DataFrame，并且对Pandas的性能限制感到沮丧，不妨使用Polars。这个面向Python的DataFrame库提供了类似Pandas的便捷语法。

不过与Pandas不同的是，Polars使用了一个用Rust编写的库，可以直接最大限度地利用您的硬件。您不需要使用特殊语法来利用并行处理或SIMD等提升性能的功能，都是自动可以利用的。就连像从CSV文件读取这样的简单操作也更快了。

Polars还提供了即时和延迟执行模式，因此查询可以立即执行，也可以延迟到需要时执行。它还提供了流式API，用于增量处理查询，不过许多函数还不能使用流式API。而Rust开发人员可以使用pyo3制作自己的Polars扩展。

5.Snakemake

数据科学工作流很难建立，更难以一致的、可预测的方式建立。Snakemake的创建就是为了实现这一点：在Python中自动建立数据分析机制，同时确保其他人都能得到与您相同的结果。许多现有的数据科学项目都依赖Snakemake。数据科学工作流中的不定因素越多，您就越有可能受益于用Snakemaker自动化处理工作流。

Snakemake工作流类似GNU make工作流：您用规则定义想要创建的东西，这些规则定义了它们接受什么、输出什么以及执行什么命令来做到这一点。工作流规则可以是多线程的（假设这会给它们带来好处），配置数据可以从JSON/YAML文件通过管道导入。您还可以在工作流中定义函数来转换用于规则中的数据，并将在每个步骤采取的操作写入到日志。

Snakemake作业旨在可移植——它们可以部署到任何Kubernetes管理的环境中，或部署到特定的云环境中，比如Google Cloud Life Sciences或AWS上的Tibanna。工作流可以被“冻结”，以使用一些具体的软件包，并且任何成功执行的工作流都可以自动生成单元测试，并加以存储。若是长期存档，您可以将工作流存储为打包文件（tarball）。

原文标题：5 newer data science tools you should be using with Python，作者：Serdar Yegulalp

关键词：

官方辟谣：《漫威蜘蛛侠2》照片模式并非高级版独占最后一页

最近更新 MORE

全球微资讯！值得与Python结合使用的五个新颖的数据科学工具

1.ConnectorX

2.DuckDB

3.Optimus

4.Polars

5.Snakemake

你已经在使用NumPy、Pandas和scikit-learn了吗？本文介绍了五个功能更

三晖电气公告控股子公司三晖能源与许继电科签订储能直流侧配套设备及系

民主与法制网讯（□付军通讯员陶遵臣林英丽孔少杰）山东省威海市公安局

智通财经APP讯，百宏实业(02299)发布公告，该公司于2023年6月19日斥资

1、城镇职工养老保险缴费标准：企业职工的基本养老保险费由企业和职工

1、才华横溢_成语解释【拼音】：cáihuáhéngyì【释义】：才华：表现

1、负荆请罪的历史人物是廉颇，拼音是fùjīngqǐngzuì，意思是是背着

1、玻璃瓶装啤酒一箱有12瓶，听装啤酒一箱有24瓶。2、常说的一提为6瓶

之前有报道宣称《漫威蜘蛛侠2》的数字豪华版会提供10套不能在游戏中获

教育数字化是建设教育强国的重要基础。面对数字时代的到来，随着互联网

现如今，从粉笔、黑板到交互白板、智慧黑板、电子笔、电子书包，从传统

近日，腾讯电脑管家发布公告，宣布自2023年6月20日起，将会下线QQ安全

许多快递公司推出了自己的手机应用程序，用户可以在手机上完成寄送快递

编者按：《每日期权追踪》紧跟期权市场，关注博弈动向，为牛友提供多维

喜迎六一国际儿童节，为丰富社区未成年人的文化生活，培养儿童的创造和

节前“反诈大礼包”襄阳高新警方进商超讲解典型案例---6月19日上午，襄

达沃斯官方贵宾用车——一汽丰田百台格瑞维亚闪耀津城

从“韭菜盒子”到“剁椒鱼头”，这些车的外号，一个比一个更奇葩

荣威中高级纯电轿车发布，全新技术加持，目标瞄准海豹和深蓝SL03

吉利星瑞1 5TD车型加新上市，性价比进一步升级

“混动全家桶”大上新，东风Honda“满电”亮相粤港澳车展！

中金公司(03908)发布公告，根据《中国国际金融股份有限公司公开发行202

19日，港交所推出“港币-人民币双柜台模式”。业内人士认为，这丰富了

据日本共同社6月19日报道，韩国最大在野党共同民主党党首李在明19日在

新海南客户端、南海网6月19日消息（记者陈望）6月18日下午，由海南省旅

6小时内呼和浩特市北部沿山一带、乌兰察布市南部、呼伦贝尔市牙克石市

今日，俄罗斯军方在乌克兰战争中取得了一项重大突破，首次成功利用人工

沾益区望海小学“传承红色基因”系列教育活动。甘娟陈盼摄学生在学习上

1、两部：1樱桃2樱桃红。2、都是宋小宝主演滴！！！是个电视剧吧。本文

1、抖音无限团是抖音平台的举办的“抖音偶像”活动中的网红一个团体。2

2023年海南省沙滩台克球邀请赛海口落幕

新海南客户端、南海网6月19日消息（记者陈望）6月18日下午，由海南省旅

快递丢失理赔是陷阱_全球播资讯

原标题：海口反诈中心公布3起电诈典型案例（引题）快递丢失理赔是陷阱