Xeon e5 2680 v4
Xeon e5 2680 v4 — один из наиболее интересных 14-ядерников на архитектуре Broadwell. Процессор отлично подойдет для рабочих ПК, но при этом может неплохо показать себя и в качестве игрового решения.
Ближайшие по производительности аналоги из прошлого поколения — Xeon e5 2678 v3 (с анлоком турбо-буста) и Xeon e5 2697 v3 в стоке. Стоит отметить, что по соотношению ценапроизводительность, Xeon e5 2680 v4 пока уступает прошлому поколению.
Характеристики
Модель | Xeon e5 2680 v4 |
---|---|
Тех.процесс | 14 nm |
Ядер | 14 |
Потоков | 28 |
Максимальная частота оперативной памяти | DDR4: 2400 Мгц |
Базовая частота | 2400 MHz |
Максимальная частота в Turbo Boost | 3300 MHz (1-2 ядра) 3100 MHz (3 ядра) 3000 MHz (4 ядра) 2900 MHz (5-14 ядер) |
AVX Offset | -1 |
Кэш L3 | 35 Mb |
TDP | 120 W |
Макс. температура крышки процессора | 86°C |
Множитель | заблокирован |
Примерная стоимость | $20 — $35 |
По сравнению с Xeon e5 2680 v3, архитектура Broadwell-E привнесла небольшие и вполне ожидаемые улучшения:
- Выросло количество ядер, а с ними и объём L3 кэша
- Увеличилась производительность (+5-10% на равных частотах), а также улучшилась работа контроллера памяти, который теперь может работать с DDR4 на частоте 2400 Мгц и поддерживает до 1.5 Тб ram
- Снизилось энергопотребление и тепловыделение благодаря новой архитектуре и техпроцессу
- Появилась поддержка некоторых новых инструкций, в том числе Intel TSX, деактивированных в Haswell по причине обнаруженных в ядре аппаратных ошибок
- Теперь при выполнении AVX-инструкций частота снижается только у тех ядер, которые непосредственно заняты AVX-вычислениями, что положительно сказалось на быстродействии.
Возможность разгона
К сожалению, в большинстве случаев придется довольствоваться стоковой производительностью.
Поскольку в четвертом поколении Intel закрыла баг, благодаря которому был возможен хак турбо-буста на процессорах Haswell, единственной возможностью разгона остается поднятие шины. Однако этот способ доступен далеко не на всех материнских платах (все известные на данный момент китайские модели управлять шиной не умеют). Но даже владельцы подходящих брендовых плат могут рассчитывать только на дополнительные 3-5% производительности, которые едва ли изменят общую картину.
Пример небольшого разгона шиной на брендовой плате
Охлаждение
Для отвода тепла понадобится башенный кулер с 3-4 теплотрубками. Если планируются длительные высокие нагрузки — лучше отдать предпочтение наиболее массивным моделям. Не стоит забывать и про продуваемость корпуса, играющую достаточно важную роль. Из моделей, доступных на aliexpress, оптимальным вариантом считается Snowman MT4, но можно брать сразу и шеститрубочную модель, стоящую почти столько же.
Проверенные модели из местных магазинов
- PCcooler GI-X3 V2
- ID-COOLING SE-224-XT
- PCcooler GI-X4 v2
- Deepcool GAMMAXX S40
- Zalman CNPS10X Optima II
- Ice Hammer IH-4800
- ID-COOLING SE-226-XT
- Thermalright Macho
- Deepcool NEPTWIN V2
Перед покупкой массивного кулера лучше заранее убедиться, что он поместится в корпус. Также стоит учитывать, что у некоторых моделей материнских плат слоты для оперативной памяти расположены достаточно близко к сокету, что также может вызвать проблемы при установке крупных систем охлаждения.
Производительность и тесты
Несмотря на все преимущества новой архитектуры, в целом результаты синтетических тестов не могут похвастаться большим отрывом от процессоров прошлого поколения с активированным хаком турбо-буста. К явным плюсам Broadwell можно отнести более низкое энергопотребление и тепловыделение.
Результаты Cinebench r15, r20 и r23
Результаты тестов от магазина Nix
Средний результат в Corona 1.3 около 01:33 для однопроцессорной системы и около 00:49 для двухпроцессорной
Игровая производительность
Игровая производительность модели очень близка к Xeon e5 2678 v3 с анлоком ТБ. Процессор обеспечивает комфортный геймплей во всех требовательных играх, особенно хорошо показывая себя в проектах, оптимизированных под многопоточную производительность.
Бенчмарки и игровые тесты в сравнении с Xeon e5 2678 v3 и Ryzen 5 5600X:
Отключение Hyper-Threading позволяет немного поднять производительность, но в большинстве игр прирост составит не больше 5-10%.
В пару к Xeon e5 2680 v4 можно ставить достаточно мощные видеокарты, вплоть до nvidia RTX 3070, AMD RX 6800 XT и схожих по производительности.
Ревизии
Помимо финальной версии, имеющей код S-spec SR2N7, известно еще как минимум о нескольких предрелизных версиях, относящейся к более ранним степпингам. Эти версии могут иметь значимые отличия от релизной. При покупке рекомендуется запросить у продавца скриншот cpu-z или HwInfo, где будет виден Stepping.
Степпинг | Код S-spec |
L0 | QHV7 |
? | QHVA |
B0 (?) | QHVB |
B0 | QK92 |
M0 | SR2N7 |
Где купить
Продается E5 2680 v4 на ebay и aliexpress. Проверенные продавцы на али:
- Huananzhi X99-F8 + Xeon e5 2680 v4 + 32 Gb DDR4
- Huananzhi X99-F8 + Xeon e5 2680 v4 + 64 Gb DDR4 ECC
- Huananzhi X99-F8D + 2*Xeon e5 2680 v4 + 128 Gb DDR4 ECC
- Tanbassh
- Vaseky
- Veineda
- Модули Samsung (подороже)
- Модули Kllisre (подешевле)
Поделиться «Xeon e5 2680 v4»
Xeon E5 v4 SKU и цены
На момент публикации у нас нет точных цен на Xeon E5 v4. Но в целом цены примерно на 1-2% выше, чем у сопоставимого Xeon E5 v3.
Intel Xeon E5 v4 SKU | ||||||
Ядра / Потоки | TDP | Базовая тактовая частота | Цена | |||
E5-2699 v4 | 22/44 | 145W | 2.2GHz | $ 4115 | ||
E5-2698 v4 | 20/40 | 135W | 2.2GHz | $ 3228 | ||
E5-2697A v4 | 16/32 | 145W | 2.6GHz | $ 2891 | ||
E5-2697 v4 | 18/36 | 145W | 2.3GHz | $ 2702 | ||
E5-2695 v4 | 18/36 | 120W | 2.1GHz | $ 2424 | ||
E5-2690 v4 | 14/28 | 135W | 2.6GHz | $ 2090 | ||
E5-2687W v4 | 12/24 | 160W | 3.0GHz | $ 2141 | ||
E5-2683 v4 | 16/32 | 120W | 2.1GHz | $ 1846 | ||
E5-2680 v4 | 14/28 | 120W | 2,4 | $ 1745 | ||
E5-2667 v4 | 8/16 | 135W | 3.2GHz | $ 2057 | ||
E5-2660 v4 | 14/28 | 105W | 2.0GHz | $ 1445 | ||
E5-2650L v4 | 14/28 | 65W | 1.7GHz | $ 1329 | ||
E5-2650 v4 | 12/24 | 105W | 2.2GHz | $ 1166 | ||
E5-2643 v4 | 6/12 | 135W | 3.4GHz | $ 1552 | ||
E5-2640 v4 | 10/20 | 90W | 2,4 | $ 939 | ||
E5-2637 v4 | 4/8 | 135W | 3,5 ГГц | $ 996 | ||
E5-2630 v4 | 10/20 | 85W | 2.2GHz | $ 667 | ||
E5-2630L v4 | 10/20 | 55W | 1.8GHz | $ 612 | ||
E5-2623 v4 | 4/8 | 85W | 2.6GHz | $ 444 | ||
E5-2620 v4 | 8/16 | 85W | 2.1GHz | $ 417 | ||
E5-2609 v4 | 8/8 | 85W | 1.7GHz | $ 306 | ||
E5-2603 v4 | 6/6 | 85W | 1.7GHz | $ 213 |
Между тем собственные оценки производительности Intel не совсем впечатляют. Их оценки основаны на почти идеально масштабируемых тестах SPECrate, и даже эти достижения «идеального мира» просто скромны, на самом деле почти не вдохновляют. Мы уже говорили об этом: этот рынок остро нуждается в конкуренции, если мы хотим, чтобы новое поколение принесло более захватывающие улучшения в показателях производительности на доллар.
Конфигурация и методология тестирования
Все наши тесты проводились на Ubuntu Server 14.04 LTS. Правда, некоторым нашим читателям это может показаться старым дистрибутивом, но предприятия предпочитают стабильность и поддержку новейшему программному обеспечению. Мы обновили этот дистрибутив до последней версии (14.04.4), которая предоставляет нам более обширную поддержку оборудования.
Чтобы сделать вещи более интересными, мы протестировали 4 различных SKU и включили Xeon E5 v3 предыдущего поколения, Xeon E5-2697v2 (High End Ivy Bridge EP) и E5-2690 (High End Sandy Bridge EP). Мы даже включили Xeon X5680 для сравнения. Xeon E5-2695 v4 интересно сравнить с Xeon E5-2699 v3, так как он имеет такое же количество ядер и более или менее одинаковую скорость. Таким образом, мы могли бы количественно оценить улучшение, которое ядро Broadwell предлагает по сравнению с ядром Haswell.
И последнее, но не менее важное: мы хотим отметить, как графики производительности имеют цветовую кодировку. Оранжевый – это последнее поколение (v4), темно-синий – предыдущее (v3), а светло-синий – это поколение, которое (возможно) должен заменить текущий (v4) (Xeon E5 v1).
Сервер Intel Xeon E5 – S2600WT (корпус 2U)
ЦПУ | Два процессора Intel Xeon E5-2699v4 (2,2 ГГц, 22c, 55 МБ L3, 145 Вт) Два процессора Intel Xeon E5-2695v4 (2,1 ГГц, 18c, 45 МБ L3, 145 Вт) Два процессора Intel Xeon E5-2699v3 (2,3 ГГц, 18c, 45 МБ) L3, 145 Вт) Два процессора Intel Xeon E5-2695v3 (2,3 ГГц, 14c, 35 МБ L3, 120 Вт) Два процессора Intel Xeon E5-2667v3 (3,2 ГГц, 8c, 20 МБ L3, 135 Вт) |
баран | 128 ГБ (8×16 ГБ) Kingston DDR-2400 |
Внутренние Диски | 2x Intel SSD3500 400 ГБ |
Материнская плата | Серверная системная плата Intel Wildcat Pass |
Набор микросхем | Intel Wellsburg B0 |
Версия BIOS | 1/28/2016 |
PSU | Delta Electronics 750 Вт DPS-750XB A (80+ платина) |
Типичные настройки BIOS можно увидеть ниже.
SuperMicro 6027R-73DARF (шасси 2U)
ЦПУ | Два процессора Intel Xeon E5-2697 v2 (2,7 ГГц, 12c, 30 МБ, L3, 130 Вт) Два процессора Intel Xeon E5-2690 (2,9 ГГц, 8c, 20 МБ, L3, 135 Вт) |
баран | 128 ГБ (8×16 ГБ) Samsung на частоте 1866 МГц |
Внутренние Диски | 2x Intel SSD3500 400 ГБ |
Материнская плата | SuperMicro X9DRD-7LN4F |
Набор микросхем | Intel C602J |
Версия BIOS | R 3.0a (6 декабря 2013 г.) |
PSU | Supermicro 740W PWS-741P-1R (80+ платина) |
Все C-состояния включены в обоих BIOS.
Другие заметки
Оба сервера питаются от стандартной европейской линии электропередачи 230 В (макс. 16 А). Температура воздуха в помещении контролируется и поддерживается на уровне 23 ° C нашими кондиционерами Airwell CRAC.
Одноядерная целочисленная производительность с SPEC CPU2006
В прошлых обзорах серверов я использовал сжатие и декомпрессию LZMA (7-zip) для оценки однопоточной производительности. Но я хорошо знал, что, хотя это был приличный целочисленный тест, он также дал очень близорукий взгляд на процесс. Заметив, что мои коллеги использовали SPEC CPU2006, и после обсуждения этого вопроса с несколькими людьми, я понял, что использование SPEC CPU2006 было намного лучшим способом оценки производительности одного ядра. Хотя SPEC CPU2006 в большей степени ориентирован на высокопроизводительные вычисления и рабочие станции, он содержит множество целочисленных рабочих нагрузок.
Я также хотел, чтобы настройки были как можно более “нормальными”. Поэтому я использовал:
- 64-битный gcc: наиболее используемый компилятор в linux, хороший универсальный компилятор, который не пытается «сломать» тесты (libquantum …)
- gcc версия 4.8.4: 4.8.x существует уже давно, очень зрелая версия
- -O2 -fno-strict-aliasing: стандартные настройки компилятора, которые используют многие разработчики
- Запустите 2 копии и привяжите их к первому ядру
Конечная цель состоит в том, чтобы измерить производительность в не «агрессивно оптимизированных» приложениях, где по какой-то причине, как это часто бывает, «многопоточная недружественная» задача заставляет нас ждать. Поскольку мы хотим сравнить эти числа с другими архитектурами, такими как IBM POWER 8, мы решили использовать все доступные потоки на одном ядре. В случае Intel это означает, что поверх него работают один физический и два одновременно работающих потока.
Мы включили Opteron 6376 по ностальгическим причинам. Мы показываем результаты двух потоков, работающих поверх одного модуля с двумя «целочисленными ядрами».
субтест | Xeon E5-2690 | Opteron 6376 | Xeon E5-2697v2 | Xeon E5-2667 v3 | Xeon E5-2699 v3 | Xeon E5-2699 v4 |
400.perlbench | 41,1 | 29,3 | 37,6 | 42,6 | 39,9 | +36,6 |
401.bzip2 | 33,4 | 24,1 | 30,1 | 33,1 | 29,9 | 25,3 |
403.gcc | 40,2 | 26,7 | 38,9 | 42,4 | 36,4 | 33,3 |
429.mcf | 45,1 | 31,7 | 46,8 | 46,4 | 41,6 | 43,9 |
445.gobmk | 36,4 | +25,5 | 33,2 | 34,9 | 31,7 | 27,7 |
456.hmmer | 30,4 | 26,1 | 27,6 | 31 | 27,1 | 28,4 |
458.sjeng | 35,2 | 24,7 | 32,8 | 35,2 | 30,5 | 28,3 |
462.libquantum | 74,9 | 39,9 | 79,3 | 84,4 | 62,2 | 67,3 |
464.h264ref | 51,7 | 34,2 | 48,1 | 52,1 | 45,2 | 40,7 |
471.omnetpp | +24,5 | 25,3 | 26,8 | 29,4 | 26,6 | 29,9 |
473.astar | 28,2 | 20,7 | 26,1 | 27,9 | 24 | 23,6 |
483.xalancbmk | 41,5 | 28,2 | 41,4 | 48,2 | 42,4 | 41,8 |
Если вы не привыкли видеть эти цифры, это не говорит вам слишком много. Поскольку Sandy Bridge EP (Xeon E5 v1) около 4 лет, серверы на базе этого процессора будут заменены более новыми. Таким образом, Sandy Bridge является нашей рекомендацией, и производительность Sandy Bridge считается 100%.
субтест | Тип приложения | Xeon E5-2690 | Opteron 6376 | Xeon E5-2697v2 | Xeon E5-2667 v3 | Xeon E5-2699 v3 | Xeon E5-2699 v4 |
400.perlbench | Спам-фильтр | 100% | 71% | 91% | 104% | 97% | 89% |
401.bzip2 | компрессия | 100% | 72% | 90% | 99% | 90% | 76% |
403.gcc | составление | 100% | 66% | 97% | 105% | 91% | 83% |
429.mcf | Планирование транспортного средства | 100% | 70% | 104% | 103% | 92% | 97% |
445.gobmk | ИИ игры | 100% | 70% | 91% | 96% | 87% | 76% |
456.hmmer | Последовательность белка анализы | 100% | 86% | 91% | 102% | 89% | 93% |
458.sjeng | шахматы | 100% | 70% | 93% | 100% | 87% | 80% |
462.libquantum | Квантовый сим | 100% | 53% | 106% | 113% | 83% | 90% |
464.h264ref | Кодирование видео | 100% | 66% | 93% | 101% | 87% | 79% |
471.omnetpp | Сеть сим | 100% | 103% | 109% | 120% | 110% | 122% |
473.astar | Найти путь | 100% | 73% | 93% | 99% | 85% | 84% |
483.xalancbmk | Обработка XML | 100% | 68% | 100% | 116% | 102% | 101% |
Многие умные люди потратили недели, если не месяцы, на анализ SPEC CPU2006, поэтому мы не будем притворяться, что можем предложить вам полную картину через несколько дней. Если вам нужен подробный анализ компиляторов и CPU 2006, я рекомендую очень подробную статью SPEC CPU 2006 meister Andreas Stiller в февральском выпуске C’T (немецкий компьютерный журнал).
Нам нужно гораздо больше данных профилирования, чем мы могли бы собрать за последние недели. Но для того, что мы можем сделать, мы начнем с самого важного параметра: clockspeed.
Одна из самых важных вещей, которую нужно осознать, заключается в том, что – особенно с плохо загруженными рабочими нагрузками – эти массивные многоядерные процессоры почти никогда не работают на заявленной тактовой скорости.
- Xeon E5-2690 может работать на частоте 3,3 ГГц с занятыми всеми ядрами и способен развивать частоту до 3,8 ГГц
- Xeon E5-2697 v2 может работать на частоте 3 ГГц с занятыми всеми ядрами и способен развивать частоту до 3,5 ГГц
- Xeon E5-2699 v3 может работать на частоте 2,8 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц
- Xeon E5-2667 v3 3,2 ГГц – это специализированная высокочастотная модель. Он может работать на частоте 3,4 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц.
- Xeon E5-2699 v4 может работать на частоте 2,8 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц
Так что это уже многое объясняет. В отличие от многих эталонных приложений, SPEC CPU2006 работает в течение длительного времени (от 5 до 15 минут на тест), и наше первое впечатление состоит в том, что части HCC не могут поддерживать все свои ядра при максимальном турбо-ускорении. В противном случае нет причин, по которым Xeon E5-2699 v3 или v4 будет работать хуже, чем Xeon E5-2667 v3: оба могут работать на частоте 3,6 ГГц, когда активно одно ядро.
Симулятор сети с низким IPC и интенсивным использованием памяти omnetppp, похоже, является единственным тестом, который работает значительно лучше на новых ядрах (Haswell, Broadwell) по сравнению с Sandy Bridge. Похоже, что это единственный тест, в котором чипы с большим количеством ядер (E5-2699 v4, E5-2699 v3) продолжают превосходить Sandy Bridge. Мы могли бы точно определить причину, проводя тестирование с различными скоростями памяти и каналами. E5-2699 v4 может предложить самую высокую производительность благодаря большему кэш-памяти L3 (55 МБ) и более высокой скорости DIMM (DDR4-2400) по сравнению с Sandy Bridge (20 МБ, DDR3-1600). В противном случае, когда мы сохраняем более или менее постоянную тактовую частоту, глядя на Xeon E5-2667v3 и Xeon E5-2690, мы получаем разницу скорости в 1-5% и только подтесты с интенсивным использованием памяти (omnetpp, Libquantum) и xalancbmk ( низкий IPC, ветвление интенсивно) показывают более высокие улучшения.
Как только мы протестируем оба топовых SKU с помощью «-Ofast» (более агрессивная настройка компилятора), результаты немного изменятся:
субтест | Тип приложения | Xeon E5-2699 v4 против Xeon E5-2690 (-Ofast) | Xeon E5-2699 v4 против Xeon E5-2690 (-O2) |
400.perlbench | Спам-фильтр | 111% | 89% |
401.bzip2 | компрессия | 94% | 76% |
403.gcc | составление | 95% | 83% |
429.mcf | Планирование транспортного средства | 114% | 97% |
445.gobmk | ИИ игры | 90% | 76% |
456.hmmer | Последовательность белка анализы | 106% | 93% |
458.sjeng | шахматы | 93% | 80% |
462.libquantum | Квантовый сим | 101% | 90% |
464.h264ref | Кодирование видео | 89% | 79% |
471.omnetpp | Сеть сим | 132% | 122% |
473.astar | Найти путь | 98% | 84% |
483.xalancbmk | Обработка XML | 105% | 101% |
Переключение с -O2 на -Ofast повышает абсолютную производительность Broadwell-EP более чем на 19%. Между тем относительное преимущество в производительности по сравнению с Xeon E5-2690 составляет в среднем 3%. В результате недостаток тактовой частоты последнего Xeon сводится на нет увеличением IPC. Очевидно, что последнее поколение Xeons выигрывает от агрессивных оптимизаций больше, чем предыдущие. Это неудивительно, конечно, но интересно, что новейшие Xeon нуждаются в большей оптимизации, чтобы «держать линию» в производительности одного ядра.
Пока мы можем сделать вывод, что если вы обновите Xeon E5-2xxx v1 до аналогичной модели v4, ваш однопоточный целочисленный код не будет работать быстрее без перекомпиляции и оптимизации. Усовершенствования процесса были использованы главным образом для добавления большего количества ядер в одном и том же диапазоне энергопотребления, в то время как Intel также продала несколько скоростных бинов, чтобы добавить еще больше ядер в топовые модели. В результате одноядерная целочисленная производительность в основном держит линию, не более того. Единственным исключением являются приложения с интенсивным использованием памяти, которые получают выгоду от каждого растущего L3-кэша и более быстрой технологии DRAM.
Одноядерная целочисленная производительность с SPEC CPU2006
В прошлых обзорах серверов я использовал сжатие и декомпрессию LZMA (7-zip) для оценки однопоточной производительности. Но я хорошо знал, что, хотя это был приличный целочисленный тест, он также дал очень близорукий взгляд на процесс. Заметив, что мои коллеги использовали SPEC CPU2006, и после обсуждения этого вопроса с несколькими людьми, я понял, что использование SPEC CPU2006 было намного лучшим способом оценки производительности одного ядра. Хотя SPEC CPU2006 в большей степени ориентирован на высокопроизводительные вычисления и рабочие станции, он содержит множество целочисленных рабочих нагрузок.
Я также хотел, чтобы настройки были как можно более “нормальными”. Поэтому я использовал:
- 64-битный gcc: наиболее используемый компилятор в linux, хороший универсальный компилятор, который не пытается «сломать» тесты (libquantum …)
- gcc версия 4.8.4: 4.8.x существует уже давно, очень зрелая версия
- -O2 -fno-strict-aliasing: стандартные настройки компилятора, которые используют многие разработчики
- Запустите 2 копии и привяжите их к первому ядру
Конечная цель состоит в том, чтобы измерить производительность в не «агрессивно оптимизированных» приложениях, где по какой-то причине, как это часто бывает, «многопоточная недружественная» задача заставляет нас ждать. Поскольку мы хотим сравнить эти числа с другими архитектурами, такими как IBM POWER 8, мы решили использовать все доступные потоки на одном ядре. В случае Intel это означает, что поверх него работают один физический и два одновременно работающих потока.
Мы включили Opteron 6376 по ностальгическим причинам. Мы показываем результаты двух потоков, работающих поверх одного модуля с двумя «целочисленными ядрами».
субтест | Xeon E5-2690 | Opteron 6376 | Xeon E5-2697v2 | Xeon E5-2667 v3 | Xeon E5-2699 v3 | Xeon E5-2699 v4 |
400.perlbench | 41,1 | 29,3 | 37,6 | 42,6 | 39,9 | +36,6 |
401.bzip2 | 33,4 | 24,1 | 30,1 | 33,1 | 29,9 | 25,3 |
403.gcc | 40,2 | 26,7 | 38,9 | 42,4 | 36,4 | 33,3 |
429.mcf | 45,1 | 31,7 | 46,8 | 46,4 | 41,6 | 43,9 |
445.gobmk | 36,4 | +25,5 | 33,2 | 34,9 | 31,7 | 27,7 |
456.hmmer | 30,4 | 26,1 | 27,6 | 31 | 27,1 | 28,4 |
458.sjeng | 35,2 | 24,7 | 32,8 | 35,2 | 30,5 | 28,3 |
462.libquantum | 74,9 | 39,9 | 79,3 | 84,4 | 62,2 | 67,3 |
464.h264ref | 51,7 | 34,2 | 48,1 | 52,1 | 45,2 | 40,7 |
471.omnetpp | +24,5 | 25,3 | 26,8 | 29,4 | 26,6 | 29,9 |
473.astar | 28,2 | 20,7 | 26,1 | 27,9 | 24 | 23,6 |
483.xalancbmk | 41,5 | 28,2 | 41,4 | 48,2 | 42,4 | 41,8 |
Если вы не привыкли видеть эти цифры, это не говорит вам слишком много. Поскольку Sandy Bridge EP (Xeon E5 v1) около 4 лет, серверы на базе этого процессора будут заменены более новыми. Таким образом, Sandy Bridge является нашей рекомендацией, и производительность Sandy Bridge считается 100%.
субтест | Тип приложения | Xeon E5-2690 | Opteron 6376 | Xeon E5-2697v2 | Xeon E5-2667 v3 | Xeon E5-2699 v3 | Xeon E5-2699 v4 |
400.perlbench | Спам-фильтр | 100% | 71% | 91% | 104% | 97% | 89% |
401.bzip2 | компрессия | 100% | 72% | 90% | 99% | 90% | 76% |
403.gcc | составление | 100% | 66% | 97% | 105% | 91% | 83% |
429.mcf | Планирование транспортного средства | 100% | 70% | 104% | 103% | 92% | 97% |
445.gobmk | ИИ игры | 100% | 70% | 91% | 96% | 87% | 76% |
456.hmmer | Последовательность белка анализы | 100% | 86% | 91% | 102% | 89% | 93% |
458.sjeng | шахматы | 100% | 70% | 93% | 100% | 87% | 80% |
462.libquantum | Квантовый сим | 100% | 53% | 106% | 113% | 83% | 90% |
464.h264ref | Кодирование видео | 100% | 66% | 93% | 101% | 87% | 79% |
471.omnetpp | Сеть сим | 100% | 103% | 109% | 120% | 110% | 122% |
473.astar | Найти путь | 100% | 73% | 93% | 99% | 85% | 84% |
483.xalancbmk | Обработка XML | 100% | 68% | 100% | 116% | 102% | 101% |
Многие умные люди потратили недели, если не месяцы, на анализ SPEC CPU2006, поэтому мы не будем притворяться, что можем предложить вам полную картину через несколько дней. Если вам нужен подробный анализ компиляторов и CPU 2006, я рекомендую очень подробную статью SPEC CPU 2006 meister Andreas Stiller в февральском выпуске C’T (немецкий компьютерный журнал).
Нам нужно гораздо больше данных профилирования, чем мы могли бы собрать за последние недели. Но для того, что мы можем сделать, мы начнем с самого важного параметра: clockspeed.
Одна из самых важных вещей, которую нужно осознать, заключается в том, что – особенно с плохо загруженными рабочими нагрузками – эти массивные многоядерные процессоры почти никогда не работают на заявленной тактовой скорости.
- Xeon E5-2690 может работать на частоте 3,3 ГГц с занятыми всеми ядрами и способен развивать частоту до 3,8 ГГц
- Xeon E5-2697 v2 может работать на частоте 3 ГГц с занятыми всеми ядрами и способен развивать частоту до 3,5 ГГц
- Xeon E5-2699 v3 может работать на частоте 2,8 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц
- Xeon E5-2667 v3 3,2 ГГц – это специализированная высокочастотная модель. Он может работать на частоте 3,4 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц.
- Xeon E5-2699 v4 может работать на частоте 2,8 ГГц со всеми занятыми ядрами и способен развивать частоту до 3,6 ГГц
Так что это уже многое объясняет. В отличие от многих эталонных приложений, SPEC CPU2006 работает в течение длительного времени (от 5 до 15 минут на тест), и наше первое впечатление состоит в том, что части HCC не могут поддерживать все свои ядра при максимальном турбо-ускорении. В противном случае нет причин, по которым Xeon E5-2699 v3 или v4 будет работать хуже, чем Xeon E5-2667 v3: оба могут работать на частоте 3,6 ГГц, когда активно одно ядро.
Симулятор сети с низким IPC и интенсивным использованием памяти omnetppp, похоже, является единственным тестом, который работает значительно лучше на новых ядрах (Haswell, Broadwell) по сравнению с Sandy Bridge. Похоже, что это единственный тест, в котором чипы с большим количеством ядер (E5-2699 v4, E5-2699 v3) продолжают превосходить Sandy Bridge. Мы могли бы точно определить причину, проводя тестирование с различными скоростями памяти и каналами. E5-2699 v4 может предложить самую высокую производительность благодаря большему кэш-памяти L3 (55 МБ) и более высокой скорости DIMM (DDR4-2400) по сравнению с Sandy Bridge (20 МБ, DDR3-1600). В противном случае, когда мы сохраняем более или менее постоянную тактовую частоту, глядя на Xeon E5-2667v3 и Xeon E5-2690, мы получаем разницу скорости в 1-5% и только подтесты с интенсивным использованием памяти (omnetpp, Libquantum) и xalancbmk ( низкий IPC, ветвление интенсивно) показывают более высокие улучшения.
Как только мы протестируем оба топовых SKU с помощью «-Ofast» (более агрессивная настройка компилятора), результаты немного изменятся:
субтест | Тип приложения | Xeon E5-2699 v4 против Xeon E5-2690 (-Ofast) | Xeon E5-2699 v4 против Xeon E5-2690 (-O2) |
400.perlbench | Спам-фильтр | 111% | 89% |
401.bzip2 | компрессия | 94% | 76% |
403.gcc | составление | 95% | 83% |
429.mcf | Планирование транспортного средства | 114% | 97% |
445.gobmk | ИИ игры | 90% | 76% |
456.hmmer | Последовательность белка анализы | 106% | 93% |
458.sjeng | шахматы | 93% | 80% |
462.libquantum | Квантовый сим | 101% | 90% |
464.h264ref | Кодирование видео | 89% | 79% |
471.omnetpp | Сеть сим | 132% | 122% |
473.astar | Найти путь | 98% | 84% |
483.xalancbmk | Обработка XML | 105% | 101% |
Переключение с -O2 на -Ofast повышает абсолютную производительность Broadwell-EP более чем на 19%. Между тем относительное преимущество в производительности по сравнению с Xeon E5-2690 составляет в среднем 3%. В результате недостаток тактовой частоты последнего Xeon сводится на нет увеличением IPC. Очевидно, что последнее поколение Xeons выигрывает от агрессивных оптимизаций больше, чем предыдущие. Это неудивительно, конечно, но интересно, что новейшие Xeon нуждаются в большей оптимизации, чтобы «держать линию» в производительности одного ядра.
Пока мы можем сделать вывод, что если вы обновите Xeon E5-2xxx v1 до аналогичной модели v4, ваш однопоточный целочисленный код не будет работать быстрее без перекомпиляции и оптимизации. Усовершенствования процесса были использованы главным образом для добавления большего количества ядер в одном и том же диапазоне энергопотребления, в то время как Intel также продала несколько скоростных бинов, чтобы добавить еще больше ядер в топовые модели. В результате одноядерная целочисленная производительность в основном держит линию, не более того. Единственным исключением являются приложения с интенсивным использованием памяти, которые получают выгоду от каждого растущего L3-кэша и более быстрой технологии DRAM.
Многопоточная целочисленная производительность
Хотя сжатие и декомпрессия сами по себе не являются эталонными тестами (по крайней мере, в отношении серверов), все больше и больше серверов должны выполнять эти задачи как часть большей роли (например, сжатие базы данных, оптимизация веб-сайта).
Это два приложения, которые действительно выигрывают от философии Intel, согласно которой «как можно меньше ядер с низким энергопотреблением в одном кристалле, сохраняя при этом линейную однопоточную производительность». Лучший Xeon E5 версии 4 не менее чем в 2,6 раза быстрее, чем Xeon E5 версии 1.
Заключительные мысли
Из-за ограниченного количества времени, которое мы должны были проводить с новыми Broadwell-EP Xeons в преддверии сегодняшнего эмбарго, мы потратили большую часть нашего времени на наших новых критериях. Однако мы также быстро проверили мощность. Похоже, что и мощность холостого хода, и нагрузка при полной загрузке с плавающей запятой немного уменьшились, но нам необходимо выполнить более тщательную проверку, чтобы дополнительно подтвердить и охарактеризовать это.
Между тем, учитывая то, что было замечательным предложением Xeon E5-2650L v3, очень жаль, что Intel не включила такой низкий SKU в наши образцы для обзора. Xeon E5-2699 v4 – это надежный продукт, но он не работает в домашних условиях. Либо это просто сбой нашей текущей настройки (прошивки?), Но кажется, что новые Xeon E3 v4s не достигают тех же турбо скоростей, что и наши Xeon E5 v3s. В результате однопоточная производительность (иногда) немного ниже, и новому процессору требуется больше ядер, чтобы превзойти предыдущее.
Мы заметили это главным образом в приложениях HPC, где новый Xeon – немного смешанный пакет. Тем не менее, учитывая, что от 72 до 88 потоков – это много для многих интересных приложений (Spark, базы данных SQL …), безусловно, есть место для процессоров, которые жертвуют большим количеством ядер для более высокой однопоточной производительности (без преувеличения). Мы застряли на частоте 3,6 ГГц слишком долго.
С учетом вышесказанного, нет никаких сомнений в том, что Xeon E5-2699 v4 обеспечивает одно приложение, которое наиболее важно: виртуализация.
Хотя мы еще не проводили всесторонних испытаний на основе гипервизора, мы почти уверены, что дополнительные ядра и меньшие задержки VMexit обеспечат хорошую производительность этого ЦП в виртуализированных средах. Технология директора ресурсов Intel и множество улучшений (объявленных прерываний), которые помогают гипервизору лучше выполнять задачи с интенсивным вводом-выводом, являются очень привлекательными функциями.
Хотя это немного, по сравнению с Xeon E5 v3s на базе Haswell-EP, производительность также выросла примерно на 20% в ключевых приложениях, таких как базы данных и приложения ERP. И хотя в некоторых случаях мы можем жаловаться всем, что хотим, на небольшое снижение производительности в однопоточном режиме, но дело в том, что Intel увеличила производительность в этих ключевых приложениях в 2–2,7 раза за четыре года, сохраняя при этом энергопотребление. более или менее то же самое. Другими словами, обновление этих серверов Sandy Bridge-EP окупится. И для многих предприятий это то, что имеет значение.
Источник https://xeon-e5450.ru/socket-2011-3/e5-2600-v4/xeon-e5-2680-v4/
Источник https://771xeon.ru/obzor-intel-xeon-e5-v4-testirovanie-broadwell-ep-s-vysokimi-nagruzkami-na-server/
Источник