Лекция Стивена Вольфрама

ВНИМАНИЕ!!!

БЛОГ ПЕРЕЕХАЛ НА НОВЫЙ АДРЕС https://blog.wolframmathematica.ru

Онлайн машина вычисления знаний Wolfram|Alpha ®

Онлайн машина вычисления знаний Wolfram|Alpha ®

суббота, 16 февраля 2013 г.

Числа WolframAlpha
Chisla_WolframAlpha.png
Числа Wolfram|Alpha

Перевод поста Майкла Тротта (Michael Trott)
Wolfram|Alpha отвечает на миллионы запросов каждый день. К примеру
factor x^5 – 6 x^4 + 13 x^3 – 13 x^2 + 6x – 1
(разложение полинома на множители)
express 99.99 through pi
(выразить 99.99 через π)
Is 999999999888888887777777666666555554444333221 a prime number?
(является ли данное число простым?)
polar plot ((sin(t) sqrt(abs(cos(t))))/(sin(t)+3.5)-2) (1-exp(-t/20)) from t = 0 to 100 pi
(построение графика функции в полярных координатах)
55,385th triangular number, 31,977th pentagonal number, 27,693th hexagonal number
(поиск 55385-го по счету треугольного числа, 31977-го по счету пятиугольного числа и 27693-го по счету шестиугольного числа))
Riemann surface cbrt(2chebyshevT(6, x) -1)
(построение римановой поверхности функции)
gravitational attraction 160 lbs, 143 lbs, 1 cm distance
(гравитационное притяжение тел заданной массы, находящихся на заданном расстоянии)
ln (universe volume/Earth volume)/137
(натуральный логарифм отношения объема Вселенной к объему Земли, деленый на 137)
convert 22 inches to centimeters
(перевод 22 дюймов в см)
enthalpy water 400K, 40 MPa
(энтальпия воды при заданной температуре и давлении)
convert 2.3 10^-28 m^2 to barns
(перевод из квадратных метров в барны)
(84446888)^3/Avogadro constant*moles
(соотношение с числом Авогадро)
elements with density greater than 10 g/cm^3 and less than 12 g/cm^3
(химические элементы с плотностью большей 10 г на см^3 и меньшей 12 г/см^3)
number of molecules in 2.68 moles of N2
(число молекул в 2.68 моль азота)
average milk price in NYC in 2004
(средняя цена молока в Нью-Йорке в 2004 г.)
10 highest mountains in Germany
(10 высочайших гор Германии)
lakes over 15,000 ft altitude
(озера на высоте выше 15000 футов)
30,000 miles beneath the surface of the sun
(30000 миль в глубь от поверхности Солнца)
average rain drop size in 16.5 mm/hr rain
(средний размер капли воды во время дождя, идущего со скоростью 16.5 мм/ч)
light of 589 nm wavelength
(свет с длиной волны 589 нм)
perceived loudness 200 Hz, 60 dB
(воспринимаемая громкость звуча с заданной частотой и давлением)
calories burned watching TV for 2 hours 20 minutes
(калории, сжигаемые во время просмотра телевизора на протяжении 2 часов 20 минут)
18% tip on a $202 .50 bill for six people(18% чаевых с 202.50$ распределенные на 6 человек)
salary $86,000
(зарплата в 86000$)
dietary fiber in 100 cubic light year of sauerkraut
(количество клетчатки, находящейся в кубе квашеной капусты объемом в 100 кубических световых лет)
3 log2(mass of domestic goat / mass of a dollar coin) + 3
(соотношение с массой домашней козы и массой монеты в 1 доллар)
How many words can I speak in 2 hours?
(сколько слов я могу сказать за 2 часа)
Revelation 13:18
(откровение 13:13)
Эти запросы представляют самые различные области человеческой деятельности, охватывая математику, физику, технику, химию, биологию, географию, а также некоторые забавные вопросы для удовлетворения собственной любознательности. Но несмотря на это разнообразие у всех запросов есть нечто общее – они содержат числа: целые и вещественные. Некоторые из них являются чисто математическими числами, другие являются количественными характеристиками чего-либо, характеризуют размер, массу, возраст и прочие параметры объекта. Некоторые числа маленькие, другие напротив очень большие, некоторые состоят всего лишь из одной цифры.
Если вы взгляните на множество чисел появляющихся в ответах выдаваемых Wolfram|Alpha то возникают вопросы каково распределение этих чисел? Существуют ли среди них какие либо закономерности? Среди закономерностей можно выделить так называемый закон Бенфорда описывающий распределение первых цифр во всех числах. (Этот закон был описан в одном из предыдущих постов).
Конечно в повседневной жизни люди не используют числа размер которых выходит за пределы диапазона от Chisla_WolframAlpha_1.png и Chisla_WolframAlpha_2.png (нижняя граница – диаметр атома в метрах, верхняя граница – прибыль компании  Apple в 2011 году). Иногда людям необходимы большие числа например для научных вычислений. Префиксы в системе СИ покрывают диапазон от Chisla_WolframAlpha_3.png до Chisla_WolframAlpha_4.png – 48 порядков значения (йотта/йокта). Давайте взглянем на размеры чисел которые пользователи набирали в своих запросах Wolfram|Alpha. Вначале рассмотрим целые числа. В качестве выборки будем использовать 2.5 миллиарда целых чисел из последних отчетов, предоставляемых Wolfram|Alpha.
Если верить Кронекеру то "Бог создал целые числа, все остальное дело рук человека", поэтому посмотрим как люди используют эти самые целые числа. Интуитивно мы ожидаем что целых чисел должно быть больше чем вещественных в запросах пользователей так как их больше в повседневной жизни (например при подсчете – 12 яиц, 120 слов, 2000 человек). Здесь представлен график частоты появления чисел от 0 до 120 в ответах системы Wolfram|Alpha. График построен в логарифмическом масштабе по вертикальной оси, так как первые целые числа встречаются чаще чем даже двузначные целые. Однозначные целые (1, 2, 3, 4, …),  а также числа делящиеся на 10 и число 100 в особенности популярны (в логарифмическом масштабе даже небольшое различие по высоте отражает значительное различие в частоте появления чисел).
Chisla_WolframAlpha_5.gif
А здесь показана частота появления первого миллиона целых чисел в логарифмическом масштабе по обеим осям.
Chisla_WolframAlpha_6.gif
На последнем графике можно увидеть по крайней мере три характерные черты.
1. Закон изменения вероятности появления имеет вид показательной функции с отрицательной степенью. Вероятность p появления числа n равна: p(n)~Chisla_WolframAlpha_7.png, где в среднем α≈-1.6. (Необходимо было предпринять некоторые действия чтобы обнаружить этот закон в столь зашумленных данных, для более детального описания этого процесса см. Clauset et al, Virkar/Clauset, и Corral et al). Обнаружение зависимости в виде закона Ципфа (Zipf law) нельзя назвать неожиданным, так как она появляется в тех случаях когда данные покрывают несколько порядков величины. (Строго убывающая нижняя огибающая имеет коэффициент α = -1.75).
2. Довольно раздробленное распределение появления чисел. В особенности для больших чисел частота появления соседних точек может различаться до 6 раз.
3. Выброс при n ≈ 2000.
Характерный выброс вокруг значения n=2000 вызван частым использованием сегодняшней даты в запросе. Так как к примеру число 2012 редко используется для математических вычислений в то время как очень часто используется в указании даты. Если мы увеличим этот график то сможем легко в этом убедиться. Недавние года (с 2010 по 2012) как и ожидалась встречаются наиболее часто (красная линия обозначает число 2012). Для любопытных: пик около n=2050 возникает из–за запросов Chisla_WolframAlpha_8.png, закон Мура в 2050-м году (Moore’s law 2050), и 30-я среда в 2051 году (30th Tuesday in 2051).
Chisla_WolframAlpha_9.gif
Следующий график отображает красным цветом простые числа. С ростом размера числа вероятность встретить в запросе простое число возрастает.
Chisla_WolframAlpha_10.gif
Приблизительно около 38% всех целых чисел введенных в Wolfram|Alpha являются простыми. Также пользователи вводят больше нечетных чисел чем четных.
Chisla_WolframAlpha_11.gif
В то время как частота появления целого числа в общем снижается с ростом самого числа, в областях чисел являющихся степенями числа 10 мы наблюдаем локальные максимумы. Следующие графики показывают локальные области вокруг чисел 100, 1000, 10000 и 100000.
Chisla_WolframAlpha_12.gif
Также очень популярны степени двойки. В них тоже наблюдаются локальные максимумы.
Chisla_WolframAlpha_13.gif
Построив частоту появления числа q=n(mod 10) для всех целых чисел демонстрирует нам что числа делящиеся на 10 в целом встречаются чаще чем остальные (на этом графике не учтены числа меньше или равные 10000), второе место занимают числа делящиеся на 5.
Chisla_WolframAlpha_14.gif
В списке ниже представлены целые числа наиболее выделяющиеся на фоне своих окрестностей.
10 | 12 | 100 | 20 | 16 | 30 | 25 | 1000 | 50 | 60 | 8 | 40 | 200 | 36 | 45 | 18 | 64 | 32 | 500 | 300 | 10000 | 90 | 120 | 27 | 180 | 400 | 2011 | 125 | 150 | 2000 | 70 | 250 | 80 | 75 | 1968 | 72 | 5000 | 48 | 600 | 365 | 140 | 360 | 110 | 3000 | 128 | 42 | 800 | 144 | 20000 | 160 | 81 | 256 | 900 | 50000 | 88 | 375 | 1200 | 24 | 4000 | 1500 | 240 | 2500 | 154 | 52 | 225 | 1024 | 56 | 700 | 3600 | 2009 | 6000 | 130 | 105 | 350 | 450 | 108 | 135 | 54 | 1988 | 216 | 8000 | 175 | 625 | 1010 | 512 | 96 | 1600 | 220 | 320 | 40000 | 85 | 25000 | 10100 | 170 | 750 | 15000 | 9000 | 1100 | 270 | 273
Несмотря на то, что столько различных целых чисел мы встретили в последних 2.5 миллиардах запросов, очевидно что не все числа могли быть использованы. В следствие чего возникает вопрос — “Какое самое маленькое число которое не было задействовано в запросах?” Для нашей выборке это число оказалось равным 69,926 ( оно не является почтовым кодом в США, а также сколько либо интересным числом с точки зрения математики). Представим список первых 10 целых чисел которые не были представлены в нашей выборке. (в этом списке не оказалось ни одного почтого кода США — жители соединенных штатов интересовались населением и местополождением каждой из почтовых зон страны).
69926 | 70246 | 70635 | 70908 | 70982 | 71501 | 72781 | 72942 | 73519 | 75909
Далее представлен график показывающий сколько целых чисел меньше или равных n не появилось в нашей выборке.
Chisla_WolframAlpha_15.gif
Если рассмотреть намного более широкий интервал [1, Chisla_WolframAlpha_16.png], вероятность появления целого числа быстро падает с увеличением размера числа, но медленнее чем по показательному закону на предыдущем графике для чисел меньше миллиона. Отношение между частотой появления числа и самим числом более не описывается показательным законом.
Chisla_WolframAlpha_17.gif
На следующем интервале [1, Chisla_WolframAlpha_18.png], вероятность появления числа n можно приблизительно описать как p(n)~Chisla_WolframAlpha_19.png, где α≈-2.8. (Серая линия описывает степенной закон).
Chisla_WolframAlpha_20.gif
Предыдущий график демонстрирует количество появлений целых чисел. Теперь давайте рассмотрим интегральную картину. Если вы рассмотрите все n целых чисел до размера N то сколько целых чисел мы упустили в таком случае? Следующий график дает ответ на этот вопрос.
Chisla_WolframAlpha_21.gif
Также следует учесть что не всегда число в запросе записано в явной форме. Часто они записываются как Chisla_WolframAlpha_22.png, где b — основание, а экспонента e является целым числом. Следующий график показывает относительное распределение таких степеней. Вы можете видеть нулевой барьер (Chisla_WolframAlpha_23.png) слева, десятичную стену (Chisla_WolframAlpha_24.png) в левой половине, кубическую стену (Chisla_WolframAlpha_25.png) внизу, и диагональные врешины (Chisla_WolframAlpha_26.png) вдоль диагонали.
Chisla_WolframAlpha_27.gif
В том же духе мы можем получить ответ на вопрос какие числа Chisla_WolframAlpha_28.png и Chisla_WolframAlpha_29.png часто появляются вместе в одном запросе. Построим график частоты со-появления. В результате видно что многие небольшие числа часто встречаются в паре с 10 или 100.
Chisla_WolframAlpha_30.gif
Теперь давайте взглянем на некоторые вещественные числа. Обычно они появляются в запросах реже, чем целые числа, но варьируются намного сильнее. Используя все те же запросы мы проанализируем 180 миллионов вещественных чисел. Абсолютные значения чисел могут быть больше или меньше единицы. На следующем графике представлено распределение вещественных чисел по их сгруппированным экспонентам. Всплески происходят при значениях x=0.5, x=0.1, и в общем в числах делящихся на 0.1.
Chisla_WolframAlpha_31.gif
Самая частая дробь которая не имеет эквивалента в виде простой дроби это 9.81 (ускорение свободного падения), 3.14 (приближение к пи), 6.67·Chisla_WolframAlpha_32.png (гравитационная постоянная Ньютона), 1.602·Chisla_WolframAlpha_33.png (заряд электрона), 6.626·Chisla_WolframAlpha_34.png (постоянная Планка), 1.38·Chisla_WolframAlpha_35.png (постоянная Больцмана) и 8.854·Chisla_WolframAlpha_36.png  (электрическая постоянная).
0.5 | 0.1 | 0.2 | 1.5 | 0.9 | 0.01 | 0.25 | 0.3 | 0.4 | 0.05 | 2.5 | 0.8 | 0.6 | 9.8 | 0.7 | 1.2 | 0.75 | 1.1 | 4.5 | 9.81 | 0.02 | 1. | 0.15 | 3.5 | 0.001 | 1.4 | 0.04 | 3.14 | 1.3 | 0.03 | 1.6 | 1.8 | 0.06 | 0.08 | 1.25 | 2.2 | 2.1 | 4.9 | 2. | 2.4 | 7.5 | 0.12 | 1.6·Chisla_WolframAlpha_37.png | 0.005 | 0.95 | 6.5 | 8.314 | 5.5 | 1.7 | 0.35 | 0.007 | 0.002 | 1.02 | 2.8 | 3.7 | 0.09 | 0.0001 | 4.2 | 0.025 | 3.2 | 0.45 | 0.5 | 2.3 | 1.9 | 3.6 | 0.125 | 4.8 | 0.99 | 2.7 | 3. | 0.16 | 0.85 | 3.141 | 1.5 | 12.5 | 2.6 | 3.3 | 0.18 | 0.65 | 6.67·Chisla_WolframAlpha_38.png | 8.5 | 1.602·Chisla_WolframAlpha_39.png | 2.25 | 1.38·Chisla_WolframAlpha_40.png | 6.626·Chisla_WolframAlpha_41.png | 6. | 1.75 | 1.01 | 3.1 | 5. | 3.4 | 0.55 | 0.14 | 0.11 | 5.8 | 8.854·Chisla_WolframAlpha_42.png | 1000. | 0.015 | 2.9
Далее представлен график распределения больших вещественных чисел в интервале [Chisla_WolframAlpha_43.png, Chisla_WolframAlpha_44.png], в логарифмическом масштабе.
Chisla_WolframAlpha_45.gif
Также как и в случае с целыми числами на больших интервалах вероятность появления числа x можно выразить как p(x)~Chisla_WolframAlpha_46.png, где α≈-2.8. На первом графике вы можете видеть числа больше 1 а на втором — меньше. Серой линией снова обозначен степенной закон.
Chisla_WolframAlpha_47.gif
Вещественные числа со всего лишь одной цифрой после запятой, независимо от количества нулей после этой цифры (например, 0.2 или 0.5) встречаются намного чаще чем числа с большим количеством ненулевых цифр после запятой (например, 0.36 или 0.89). То же самое верно и для чисел с двумя цифрами после запятой (0.58 или 0.89) по сравнению с числами с тремя цифрами после запятой (0.582 или 0.880). Эта тенденция продолжается с ростом числа цифр после запятой. Исключения составляют наиболее часто используемые числа такие как 314… (первые цифры числа Пи) и 667 (округленная до 3 знаков простая дробь 2/3), а также упомянутые выше физические константы.
Следующий график показывает частоту появления четырех групп вещественных чисел:
красным выделены числа которые имеют лишь один знак отличный от нуля,
синим — два знака,
зеленым — три
и желтым выделены числа которые имеют как минимум 4 ненулевых цифры в своей мантиссе.
Зеленые “всплески” обозначает либо знаки числа Пи, либо первые цифры ускорения свободного падения на Земле, либо числа кратные одной восьмой. Если вы скачаете данный график в формате CDF то при наведении мышки на точку вы увидите первые цифры каждого числа. Интуитивно мы ожидаем что чем больше цифр в мантиссе числа тем реже такие числа будут появляться в запросах пропорционально своему абсолютному значению. Три тонких фиолетовых линии представляют вероятности появления чисел с двумя, тремя и четырьмя последовательными ненулевыми цифрами в мантиссе согласно обобщенному закону Бенфорда.
Chisla_WolframAlpha_48.gif
Последний график построен с использованием первых двух цифр в мантиссе всех рассмотренных вещественных чисел. График является очень информативным. Наша гистограмма состоит из 100 столбцов где легко видеть пики в числах кратных 0.1 а также вокруг некоторых физических констант.
Chisla_WolframAlpha_49.gif
На этом подведем черту под нашим небольшим исследованием распределения целых и вещественных чисел в запросах Wolfram|Alpha. Исследование выполнения “закона кучи” (Heap’s law) (см. Sano et al), определяющего время появления новых чисел мы оставим на следующий раз. Изучение чисел появляющихся на веб-страницах было проведено Dorogoytsev et al несколько лет назад. Различные аспекты распределения целых чисел на веб-страницах согласуются с описанными выше распределениями по запросам Wolfram|Alpha. Важность специальных и округленных чисел была изучена Coupland, Sigurd, и Jansen and Pollmann.

Блог принадлежит “Русскоязычной поддержке Wolfram Mathematica
При любом использовании материалов блога, ссылка на блог обязательна.
SpikeyСоздано с помощью Wolfram Mathematica 9

Комментариев нет:

Отправить комментарий