Matplotlib python установка - Компьютеры, программы, интернет

Содержание

1 Забудьте о matplotlib: визуализация данных в Python вместе с plotly
2 Визуализация научных данных с помощью пакета matplotlib в Linux
3 Библиотеки Python для анализа данных

Забудьте о matplotlib: визуализация данных в Python вместе с plotly

Красочное интерактивное отображение датасета в одну строку? Не проблема с plotly! Разбираемся с построением интерактивных графиков и диаграмм.

Если спросить питонистов, какую библиотеку использовать для визуализации данных, то большинство, несомненно, ответят: matplotlib. Ответят, правда, без особого удовольствия. Многое в matplotlib не так уж очевидно и требует не раз обратиться к StackOverflow. Касается это и таких распространенных ситуаций, как создание дополнительных осей или отображение на них дат.

Нужно понимать, что matplotlib создавался задолго до бурного развития Data Science, и в большей мере ориентировался на отображение массивов NumPy и параметрических функций SciPy. В то же время в Data Science распространен обобщающий тип объектов – датасеты, крупные таблицы с данными. В этой статье мы нырнем в работу с альтернативной библиотекой – plotly – и научимся визуализировать множество самых необходимых вещей.

Весь код доступен на GitHub. Интерактивные графики можно (и нужно) смотреть на NBViewer. Приводимые куски кода будут отображать только минимальную часть, необходимую для визуализации данных. Предподготовка данных – в указанных источниках.

Краткий обзор plotly

Пакет plotly – библиотека с открытым исходным кодом, построенная на plotly.js, которая, в свою очередь, базируется на d3.js. В своих экспериментах с кодом будем использовать обертку над plotly cufflinks. Она упрощает работу с датафреймами pandas.

Plotly – это графическая компания, производящая несколько продуктов и инструментов с открытым исходным кодом. Библиотека бесплатна для использования и позволяет создавать неограниченное количество графиков в автономном режиме, а также до 25 диаграмм онлайн.

Вся работа статье была сделана в блокноте Jupyter в связке plotly+cufflinks, которые можно установить стандартным образом с помощью pip:

pip install cufflinks plotly

Соответствующий импорт Python библиотек:

# Стандартное импортирование plotly import plotly.plotly as py import plotly.graph_objs as go from plotly.offline import iplot # Использование cufflinks в офлайн-режиме import cufflinks cufflinks.go_offline() # Настройка глобальной темы cufflinks cufflinks.set_config_file(world_readable=True, theme='pearl', offline=True)

# Стандартное импортирование plotlyimport plotly.plotly as pyimport plotly.graph_objs as gofrom plotly.offline import iplot# Использование cufflinks в офлайн-режимеimport cufflinkscufflinks.go_offline()# Настройка глобальной темы cufflinkscufflinks.set_config_file(world_readable=True, theme='pearl', offline=True)

Перейдем к примерам.

Распределение единственной переменной: гистограммы и боксплоты

Построение распределения переменной – стандартный способ начального анализа данных. При помощи plotly легко сделать интерактивное представление гистограмм и прочих распределений. Для тех, кто использовал ранее matplotlib, нужно вместо команды plot просто использовать iplot:

df['claps'].iplot(kind='hist', xTitle='claps', yTitle='count', title='Claps Distribution')

Если мы хотим сравнить распределение двух переменных, можем наложить две гистограммы друг на друга:

df[['time_started', 'time_published']].iplot( kind='hist', histnorm='percent', barmode='overlay', xTitle='Time of Day', yTitle='(%) of Articles', title='Time Started and Time Published')

Проведя некоторые манипуляции в pandas, получаем диаграмму с распределением относительно времени:

df2 = df[['view','reads','published_date']].\ set_index('published_date').\ resample('M').mean() df2.iplot(kind='bar', xTitle='Date', yTitle='Average', title='Monthly Average Views and Reads')

df2 = df[['view','reads','published_date']].\ set_index('published_date').\ resample('M').mean()df2.iplot(kind='bar', xTitle='Date', yTitle='Average', title='Monthly Average Views and Reads')

Комбинируя мощь pandas и plotly, легко получать интерактивные сводные диаграммы:

df.pivot(columns='publication', values='fans').iplot( kind='box', yTitle='fans', title='Fans Distribution by Publication')

Интерактивное представление позволяет не загромождать исходный график избыточной информацией, обращаясь к ней по необходимости.

Временные ряды

Одна из распространенных задач – отображение данных относительно временной шкалы. Здесь актуальна возможность выбора интересующего интервала для отслеживания тренда.

tds = df[df['publication'] == 'Towards Data Science'].\ set_index('published_date') tds[['claps', 'fans', 'title']].iplot( y='claps', mode='lines+markers', secondary_y = 'fans', secondary_y_title='Fans', xTitle='Date', yTitle='Claps', text='title', title='Fans and Claps over Time')

tds = df[df['publication'] == 'Towards Data Science'].\ set_index('published_date')tds[['claps', 'fans', 'title']].iplot( y='claps', mode='lines+markers', secondary_y = 'fans', secondary_y_title='Fans', xTitle='Date', yTitle='Claps', text='title', title='Fans and Claps over Time')

В одной строке были сделаны сразу несколько вещей:

Задание формата оси абсцисс.
Создание дополнительной оси ординат, так как исследуемые данные имеют разный масштаб величин (secondary_y = ‘fans’).
Добавление заголовков статей к каждой точке, отображаемых при наведении курсора (рассматривается датафрейм публикации статей (text=’title’)).

Чтобы создать к каждой точке текстовые аннотации, используем режим lines+markers+text:

tds_monthly_totals.iplot( mode='lines+markers+text', text=text, y='word_count', opacity=0.8, xTitle='Date', yTitle='Word Count', title='Total Word Count by Month')

Легко сочетать и различные типы отображения. Например, использовать цвет для дополнительной переменной.

df.pivot_table( values='views', index='published_date', columns='publication').cumsum().iplot( mode='markers+lines', size=8, symbol=[1, 2, 3, 4, 5], layout=dict( xaxis=dict(title='Date'), yaxis=dict(type='log', title='Total Views'), title='Total Views over Time by Publication'))

Диаграммы рассеяния

Совместим данные двух переменных (для рассматриваемого датасета это время чтения и процент прочитанного). Для третьего параметра (тематика статьи) используем цвет:

df.iplot( x='read_time', y='read_ratio', # Specify the category categories='publication', xTitle='Read Time', yTitle='Reading Percent', title='Reading Percent vs Read Ratio by Publication')

Если величина меняется в широком диапазоне логично использовать логарифмические оси. В примере ниже представлен код с логарифмической осью абсцисс (команда type=’log’). Третья переменная показывается при помощи размера маркеров (size=’read_ratio’).

tds.iplot( x='word_count', y='reads', size='read_ratio', text=text, mode='markers', layout=dict( xaxis=dict(type='log', title='Word Count'), yaxis=dict(title='Reads'), title='Reads vs Log Word Count Sized by Read Ratio'))

Описанные стратегии отображения дополнительной переменной можно использовать для одновременной визуализации четырех переменных: двух – при помощи координат, и еще двух – за счет использования цвета и размера. Результат представлен на рисунке ниже.

Другие формы представления

Для следующих форм представления данных будем использовать модуль plotly.figure_factory.

Матрица диаграмм рассеяния

Показать взаимосвязь между параметрами поможет матрица диаграмм рассеяния. В качестве диагонального отображения единственной переменной используем гистограммы (diag=’histogram’). Заметим, что и здесь мы можем использовать цвет в качестве дополнительной переменной.

import plotly.figure_factory as ff figure = ff.create_scatterplotmatrix( df[['claps', 'publication', 'views', 'read_ratio','word_count']], diag='histogram', index='publication')

import plotly.figure_factory as fffigure = ff.create_scatterplotmatrix( df[['claps', 'publication', 'views', 'read_ratio','word_count']], diag='histogram', index='publication')

Цветовая карта распределения

Другой способ, удобный для большого количества переменных – цветовая карта распределения величины. Такой подход удобен, например, для корреляционной матрицы параметров датасета df.corr():

corrs = df.corr() figure = ff.create_annotated_heatmap( z=corrs.values, x=list(corrs.columns), y=list(corrs.index), annotation_text=corrs.round(2).values, showscale=True)

corrs = df.corr()figure = ff.create_annotated_heatmap( z=corrs.values, x=list(corrs.columns), y=list(corrs.index), annotation_text=corrs.round(2).values, showscale=True)

Приятной особенностью cufflinks является возможность выбора стиля отображения данных с помощью различных тем. Ниже представлены отображения в темах space и ggplot:

Есть возможность визуализации в трехмерном пространстве:

Есть и все, что привычно видеть в стандартном наборе построения диаграмм. Но даже круговые диаграммы выглядят здесь более стильно, чем в matplotlib:

Chart Studio

Если вы запускали скрипты в Jupyter-блокноте, вы могли заметить небольшую ссылку в правой части графика Export to plot.ly. Нажав на нее, вы перенесетесь в Chart Studio, где можно дополнительно подготовить диаграмму для конечной презентации. Вы можете добавить аннотацию, изменить цвета и пр. Ниже представлены две диаграммы, подготовленные в Chart Studio.

Даже все вышепредставленное не описывает всех возможностей описываемых библиотек. Чтобы увидеть больше красочных примеров, изучите документации plotly и cufflinks.

Заключение

Итак, что мы имеем:

Однострочный код для красочной визуализации датасетов.
Интерактивные элементы для выделения и исследования данных.
Возможность существенной детализации отображаемой информации.
Простая настройка отображения для презентации с использованием преднастроенных шаблонов.

Таким образом, plotly в связке с cufflinks позволяет с минимальными усилиями быстро создавать интерактивное отображение датасетов.

Источник (англ. язык)

Вас также могут заинтересовать:

Источник: https://proglib.io/p/plotly/

Визуализация научных данных с помощью пакета matplotlib в Linux

Библиотека сайта rus-linux.net

Оригинал: How to use matplotlib for scientific plotting on Linux Joshua Reed 2 декабря 2014 годаПеревод: А. Кривошей

Дата перевода: апрель 2015 г.

Если вы ищете эффективное, автоматизированное решение для создания высококачественных научных графиков в Linux, обратите внимание на matplotlib — графический научный пакет на базе Python с открытым исходным кодом и лицензией на базе Python Software Foundation license. К его достоинствам можно отнести подробную документацию с примерами, интеграцию с Python и вычислительным научным пакетом NumPy, а также возможность автоматизации операций. В этом руководстве мы рассмотрим несколько примеров создания графиков с помощью matplotlib.

Возможности

— различные типы графиков (диаграммы, точечные, линейные, контурные…);- синтаксис на базе Python;- интеграция с научным вычислительным пакетом NumPy;- исходные данные могут быть списками и кортежами Python, либо массивами NumPy;- настраиваемый формат графика (масштабы осей, подписи, сетка и т.д.

);- настраиваемый текст (тип шрифта, размер, начертание и т.д.);- форматирование TeX (уравнения, греческие символы и т.д.

);- совместим с IPython (позволяет строить графики интерактивно из командной оболочки Python);- автоматизация — использует циклы Python для итеративного построения графиков;

— сохранение графиков в виде изображений (в форматах png, pdf, ps, eps и svg).

Основой эффективной работы matplotlib и многих его особенностей служит синтаксис на базе Python.

Есть много научных пакетов, которые позволяют строить качественные графики, но многие из них позволяют делать это непосредственно в вашем коде на Python? Кроме того, могут ли они создавать автоматизированные процедуры для итеративного построения графиков и сохранения их в графических файлах? Matplotlib позволяет выполнять все эти задачи. С его помощью вы можете сэкономить время, тратящееся на создание графиков вручную.

Установка

В первую очередь для работы matplotlib установите Python и NumPy. Инструкции по установке NumPy можно найти здесь.
Для установки matplotlib в Debian или Ubuntu введите следующую команду:

$ sudo apt-get install python-matplotlib

Для установки matplotlib в Fedora или CentOS/RHEL:

$ sudo yum install python-matplotlib

Примеры использования Matplotlib

В этом руководстве мы рассмотрим следующие примеры использования matplotlib:

— точечный и линейный графики;- гистограммы;

— круговые диаграммы.

В этих примерах для выполнения команд matplotlib мы будем использовать скрипты на Python . Обратите внимание, что в скрипте должны быть импортированы модули numpy и matplotlib с помощью команды import. np определяется как ссылка на модуль numpy, а plt — как ссылка на пространство имен matplotlib.pyplot:

import numpy as npimport matplotlib.pyplot as plt

Пример 1: точечные и линейные графики

Первый скрипт, script1.py, выполняет следующие задачи:

— Создает три набора данных (xData, yData1 и yData2);- создает новый рисунок (под номером 1) шириной 8 дюймов и высотой 6 дюймов;- задает название графика и подписи для осей x и y (все с размером шрифта 14);- строит график первого набора данных, yData1, как функции набора данных xData в виде точечного графика с круглыми маркерами и подписью «y1 data»;- строит график второго набора данных, yData2, как функции набора данных xData в виде непрерывной линии красного цвета без маркеров и с подписью «y2 data»;- размещает легенду в верхнем левом углу графика;

— сохраняет рисунок в формате PNG.

Содержимое script1.py:

import numpy as npimport matplotlib.pyplot as plt xData = np.arange(0, 10, 1)yData1 = xData.__pow__(2.0)yData2 = np.arange(15, 61, 5)plt.figure(num=1, figsize=(8, 6))plt.title('Plot 1', size=14)plt.xlabel('x-axis', size=14)plt.ylabel('y-axis', size=14)plt.plot(xData, yData1, color='b', linestyle='—', marker='o', label='y1 data')plt.plot(xData, yData2, color='r', linestyle='-', label='y2 data')plt.legend(loc='upper left')plt.savefig('images/plot1.png', format='png')

Построенный график:

Пример 2: Гистограммы

Второй скрипт, script2.py, выполняет следующие задачи:

— создает набор данных из 1000 нормально распределенных случайных чисел;- создает новый рисунок (под номером 1) шириной 8 дюймов и высотой 6 дюймов;- задает название графика и подписи для осей x и y (все с размером шрифта 14);- строит гистограмму из 40 столбцов с нижней и верхней границами -10 и 10 соответственно;- добавляет на график текст, используя форматирование TeX для вывода греческих символов (размер шрифта 16);

— сохраняет рисунок в формате PNG.

Содержимое script2.py:

import numpy as npimport matplotlib.pyplot as plt mu = 0.0sigma = 2.0samples = np.random.normal(loc=mu, scale=sigma, size=1000)plt.figure(num=1, figsize=(8, 6))plt.title('Plot 2', size=14)plt.xlabel('value', size=14)plt.ylabel('counts', size=14)plt.hist(samples, bins=40, range=(-10, 10))plt.text(-9, 100, r'$\mu$ = 0.0, $\sigma$ = 2.0', size=16)plt.savefig('images/plot2.png', format='png')

Построенный график:

Заголовки разделов

Пример 3: круговые диаграммы

Третий скрипт, script3.py решает следующие задачи:

— создает набор данных, состоящий из пяти чисел;- создает новый рисунок (под номером 1) шириной 8 дюймов и высотой 6 дюймов;- добавляет на рисунок оси с соотношением сторон 1:1;- задает название графика (размер шрифта 14);- строит график в виде круговой диаграммы;

— сохраняет рисунок в формате PNG.

Содержимое script3.py:

import numpy as npimport matplotlib.pyplot as plt data = [33, 25, 20, 12, 10]plt.figure(num=1, figsize=(6, 6))plt.axes(aspect=1)plt.title('Plot 3', size=14)plt.pie(data, labels=('Group 1', 'Group 2', 'Group 3', 'Group 4', 'Group 5'))plt.savefig('images/plot3.png', format='png')

Построенная диаграмма:

Если вам понравилась статья, поделитесь ею с друзьями:

Источник: http://rus-linux.net/MyLDP/soft/matplotlib.html

Библиотеки Python для анализа данных

Когда мы попытаемся решить проблему с DataMining мы столкнемся с большим количеством вопросов, но мы можем решить их все с помощью Python.

В этом посте я собираюсь рассказать вам о некоторых мощных пакетах Питона.

Прежде чем перейти непосредственно к Python пакетам позвольте мне развеять ваши сомнения, которые крутятся в вашей голове прямо сейчас. Почему Python?

Почему Python?

Мы все знаем, что питон мощный язык программирования, но что это значит на самом деле? Что делает Python мощным языком программирования?

Python очень прост

Репутацию универсального языка Python приобрел из-за его легко изучения. Синтаксис языка Python разработан, чтобы быть легко читаемым. Python имеет большую популярность в научных вычислениях. Люди, работающие в этой области как правило во первых ученые, а потом уже программисты.

Python является эффективным

Мы работаем с объемами данных которые в народе называют BIG DATA. Чем больше данных вы должны обрабатывать, тем важнее, использовать управляемую память. И в этом питон работает очень эффективно.

Python быстр

Мы все знаем, что Python является интерпретируемым языком, вы можете думать, что он может быть медленным, но много удивительных вещей было сделано за последние годы для повышения производительности Питона. Моя точка зрения в том, что если вы хотите сделать высокопроизводительные вычисления, Python является лучшим жизнеспособным вариантом на сегодня.

Надеюсь, я очистил ваши сомнения о том «Почему Python?», Так что позвольте мне перейти к пакетам Python для интеллектуального анализа данных.

NumPy

Описание:

NumPy является фундаментальным пакетом для научных вычислений с Python. Он содержит много разных вещей.

NumPy является расширением языка программирования Python, добавляя поддержку больших многомерных массивов и матриц, вместе с большой библиотекой высокого уровня математических функций для работы на этих массивах.

Предок NumPy, Numeric, был первоначально создан Джимом Хагуниным при участии ряда других разработчиков. В 2005 году Трэвис Олифант создал NumPy путем включения функции конкурирующего Numarray в Numeric, с обширными изменениями.

Первоначальный автор (ы)	Трэвис Олифант
Автор (ы)	Проект сообщества
Первый релиз	как Numeric, 1995; как NumPy, 2006
Стабильный релиз	1.9.0 / 7 сентября 2014; 36 дней назад
Написан на	Python, C
Операционная система	Кросс-платформа
Тип	Технические вычисления
Лицензия	BSD-new license
Сайт	www.numpy.org

Установка NumPy:

Я твердо уверен, что питон уже установлен в вашем компьютере, если питон не установлен на Вашем компьютере, пожалуйста, установите его в первую очередь.

Установка NumPy в Linux

Откройте терминал и скопируйте эти команды:

sudo apt-get update sudo apt-get install python-numpy

Пример NumPy код для использования RESHAPE функции

from numpy import * a = arange(12) a = a.reshape(3,2,2) print a

вывод скрипта

[[[0 1] [2 3]] [[4 5] [6 7]] [[8 9] [10 11]]]

SciPy

Описание:

SciPy программное обеспечение с открытым исходным кодом для математики, науки и техники. Библиотека SciPy зависит от NumPy, который обеспечивает удобный и быстрый работу с N-мерными массивами.

Библиотека SciPy создана для работы с массивами NumPy и предоставляет множество удобных и эффективных программ, таких как программы для численного интегрирования и оптимизации.

Вместе они работают на всех популярных операционных системах, быстро устанавливаются, и являются бесплатными. NumPy и SciPy просты в использовании, но являются достаточно мощными.

Первоначальный автор (ы)	Трэвис Олифант
Автор (ы)	Проект сообщества
Стабильный релиз	0.14.0 / 3 мая 2014; 5 месяцев назад
Написан на	Python, Fortran, C, C ++
Операционная система	Кросс-платформа
Тип	Технические вычисления
Лицензия	BSD-new license
Сайт	www.scipy.org

Установка SciPy в Linux

Откройте терминал и скопируйте эти команды:

sudo apt-get update sudo apt-get install python-scipy

Пример SciPy кода

from scipy import special, optimize f = lambda x: -special.jv(3, x) sol = optimize.minimize(f, 1.0) x = linspace(0, 10, 5000) plot(x, special.jv(3, x), '-', sol.x, -sol.fun, 'o') savefig('plot.png', dpi=96)

вывод скрипта

Pandas

Описание:

Pandas пакет Python обеспечивает быстрые, гибкие и выразительные структуры данных, предназначенные для упрощения работы с «реляционными» или «маркированными» данными. Он стремится быть основным высокоуровневым блоком для выполнения анализа данных в режиме реального времени на языке Python. Кроме того, он имеет цель стать самым мощным и гибким инструментом с открытым исходным кодом инструментом для анализа данных и манипуляции с ними, доступный на любом языке.

Pandas хорошо подходит для различных видов данных:

Табличные данные такие как в таблице SQL или Excel.
Упорядоченные и неупорядоченные данные (не обязательно с фиксированной частотой) временных рядов.
Произвольные матричные данные с метками строк и столбцов.
Любая другая форма наблюдений и статистические наборы данных. Данные фактически не требующие наличия меток.

Установка Pandas в Linux

Откройте терминал и скопируйте эти команды:

sudo apt-get update sudo apt-get install python-pandas

Пример Pandas кода

import pandas as pd values = np.array([2.0, 1.0, 5.0, 0.97, 3.0, 10.0, 0.0599, 8.0]) ser = pd.Series(values) print ser

Вывод скрипта

0 2.0000 1 1.0000 2 5.0000 3 0.9700 4 3.0000 5 10.0000 6 0.0599 7 8.0000

Matplotlib

Описание:

Matplotlib является библиотекой графического отображения для языка программирования Python и его расширения вычислительной математики NumPy. Он обеспечивает объектно-ориентированный API для встраивания в приложения, используя GUI инструменты такие, как WxPython, Qt, или GTK +. Существует также процедурный «pylab» интерфейс на основе OpenGL. Также Matplotlib используется в SciPy.

Первоначальный автор (ы)	Джон Хантер
Автор (ы)	Майкл Droettboom и др.
Стабильный релиз	1.4.2 (26 октября 2014 года)
Написан на	Python
Операционная система	Кросс-платформа
Тип	Графический инструмент
Лицензия	matplotlib license
Сайт	matplotlib.org

Установка Matplotlib в Linux

Откройте терминал и скопируйте эти команды:

sudo apt-get update sudo apt-get install python-matplotlib

Пример Matplotlib кода для создания гистограмм

import numpy as np import matplotlib.mlab as mlab import matplotlib.pyplot as plt # example data mu = 100 # mean of distribution sigma = 15 # standard deviation of distribution x = mu + sigma * np.random.randn(10000) num_bins = 50 # the histogram of the data n, bins, patches = plt.hist(x, num_bins, normed=1, facecolor='green', alpha=0.5) # add a 'best fit' line y = mlab.normpdf(bins, mu, sigma) plt.plot(bins, y, 'r—') plt.xlabel('Smarts') plt.ylabel('Probability') plt.title(r'Histogram of IQ: $\mu=100$, $\sigma=15$') # Tweak spacing to prevent clipping of ylabel plt.subplots_adjust(left=0.15) plt.show()

Вывод скрипта

IPython

IPython это командная оболочка для интерактивных вычислений на нескольких языках программирования, изначально разработана для языка программирования Python, что предлагает расширенные возможности, мультимедиа, дополнительный синтаксис оболочки, автодополнение. IPython в настоящее время предоставляет следующие возможности:

Мощные интерактивные оболочки (терминал на основе Qt).
Редактор на базе браузера с поддержкой кода, текста, математических выражений, и др.
Поддержка интерактивной визуализации данных и использования GUI.
Легкий в использовании, высококачественные инструменты производительности для параллельных вычислений.

Первоначальный автор (ы)	Фернандо Перес и другие
Стабильный релиз	2.3 / 1 октября 2014; 27 дней назад
Написан на	Python, JavaScript, CSS, HTML
Операционная система	Кросс-платформа
Тип	Оболочка
Лицензия	BSD
Сайт	www.ipython.org

Установка IPython в Linux

Откройте терминал и скопируйте эти команды:

sudo apt-get update sudo pip install ipython

Пример кода IPython

Это кусок кода для построения демонстрации интеграла как площади под кривой

import numpy as np import matplotlib.pyplot as plt from matplotlib.patches import Polygon def func(x): return (x — 3) * (x — 5) * (x — 7) + 85 a, b = 2, 9 # integral limits x = np.linspace(0, 10) y = func(x) fig, ax = plt.subplots() plt.plot(x, y, 'r', linewidth=2) plt.ylim(ymin=0) # Make the shaded region ix = np.linspace(a, b) iy = func(ix) verts = [(a, 0)] + list(zip(ix, iy)) + [(b, 0)] poly = Polygon(verts, facecolor='0.9', edgecolor='0.5') ax.add_patch(poly) plt.text(0.5 * (a + b), 30, r»$\int_ab f(x)\mathrm{d}x$», horizontalalignment='center', fontsize=20) plt.figtext(0.9, 0.05, '$x$') plt.figtext(0.1, 0.9, '$y$') ax.spines['right'].set_visible(False) ax.spines['top'].set_visible(False) ax.xaxis.set_ticks_position('bottom') ax.set_xticks((a, b)) ax.set_xticklabels(('$a$', '$b$')) ax.set_yticks([]) plt.show()

Вывод скрипта

scikit-learn

Проект scikit-learn начинал в как scikits.learn, в студенческой программе Google Summer Code. Его название «SciKit» произошло от «SciPy Toolkit». Scikit-learn стал популярным в ноябре 2012 года.

Первоначальный автор (ы)	Дэвид Корнапеу
Первый выпуск	июнь 2007 года; 7 лет назад
Стабильный релиз	0.15.1 / 1 августа 2014
Написан на	Python, Cython, C и С ++
Операционная система	Linux, Mac OS X, Microsoft Windows
Тип	Библиотека для машинного обучения
Лицензия	BSD License
Сайт	scikit-learn.org

Установка Scikit-learn в Linux

Откройте терминал и скопируйте эти команды:

sudo apt-get update sudo apt-get install python-sklearn

Пример Scikit кода

import matplotlib.pyplot as plt import numpy as np from sklearn import datasets, linear_model # Load the diabetes dataset diabetes = datasets.load_diabetes() # Use only one feature diabetes_X = diabetes.data[:, np.newaxis] diabetes_X_temp = diabetes_X[:, :, 2] # Split the data into training/testing sets diabetes_X_train = diabetes_X_temp[:-20] diabetes_X_test = diabetes_X_temp[-20:] # Split the targets into training/testing sets diabetes_y_train = diabetes.target[:-20] diabetes_y_test = diabetes.target[-20:] # Create linear regression object regr = linear_model.LinearRegression() # Train the model using the training sets regr.fit(diabetes_X_train, diabetes_y_train) # The coefficients print('Coefficients: ', regr.coef_) # The mean square error print(«Residual sum of squares: %.2f» % np.mean((regr.predict(diabetes_X_test) — diabetes_y_test) ** 2)) # Explained variance score: 1 is perfect prediction print('Variance score: %.2f' % regr.score(diabetes_X_test, diabetes_y_test)) # Plot outputs plt.scatter(diabetes_X_test, diabetes_y_test, color='black') plt.plot(diabetes_X_test, regr.predict(diabetes_X_test), color='blue', linewidth=3) plt.xticks(()) plt.yticks(()) plt.show()

Вывод скрипта

Coefficients: [ 938.23786125] Residual sum of squares: 2548.07 Variance score: 0.47

Информация взята здесь.

Источник: https://TechCave.ru/posts/39-biblioteki-python-dlja-analiza-dannyh.html