Snaha o výpočetní úložiště

Snaha o výpočetní úložiště

IT průmysl se vždy snaží překonat úzká místa a jedním z největších je vstup / výstup (I / O). Ať už se jedná o šířku pásma paměti, šířku pásma sítě nebo o to, jak rychle lze obnovit obrazovku s vysokým rozlišením, rychlost, jakou může procesor zkopírovat data (centrální procesorová jednotka nebo mikroprocesor) do externího zařízení, omezuje celkový výkon.

Nové generace dynamické paměti RAM (paměť s náhodným přístupem) vylepšují I / O mezi CPU a hlavní pamětí počítače. GPU (jednotky grafického zpracování) přebírají grafické zpracování, snižují I / O potřebné pro vykreslování grafiky a zároveň významně zvyšují výkon, zejména v počítačových hrách.

Obrovská síla GPU však také vedla k novým aplikačním oblastem, kde jsou vyžadovány vysoce paralelní výpočty. GPU urychlí strojové učení a odvozovací mechanismy pro rozhodování založené na umělé inteligenci (AI).

Existuje důvod pro zpracování dat v úložišti?

Software běží na datech a data jsou často považována za „nový olej“. Má tedy smysl dát data co nejblíže místu, kde se zpracovávají, aby se snížila latence pro úlohy náročné na výkon. Některé architektury vyžadují velké kusy paměťového úložiště umístěného poblíž výpočetní funkce, zatímco naopak v některých případech má smysl přesunout výpočet blíže k hromadnému úložišti.

Růst dat vedl k tomu, že se někteří v oboru ptali, zda lze úložná zařízení použít analogickým způsobem jako GPU, aby se urychlily úlohy zpracování dat. Toto je oblast výpočetního úložiště, což je termín používaný k popisu kombinace softwaru a hardwaru k odlehčení a zmírnění omezení stávajících výpočtů, paměti a úložiště ve snaze zlepšit výkon aplikace a / nebo efektivitu infrastruktury.

Začátkem tohoto roku Antonio Barbalace, odborný asistent na Institutu architektury výpočetních systémů University of Edinburgh, zveřejnil příspěvek, spoluautorem s Microsoft Research, Výpočetní úložiště: kde jsme dnes ?, při pohledu na aktuální stav výpočetního úložiště.

“Můžeme něco udělat s úložištěm?” říká a poukazuje na to, že organizace investují velké množství dat, která je pak třeba zpracovat. “Například databáze jsou extrémně velké,” dodává. “Kopírují data z paměťových zařízení a zpracovávají je v paměti RAM.” Přesunutí databáze do paměti trvá hodně času. “

Existuje tedy platný případ pro spuštění dotazování na databázi na úložném zařízení, aby se zabránilo zúžení I / O při kopírování dat tam a zpět z úložného zařízení do paměti RAM počítače.

Některé úkoly se již spouštějí na řadičích úložiště používaných ke správě fyzických zařízení, jako jsou disková pole, říká Matt Armstrong-Barnes, technický ředitel společnosti HPE. “Deduplikace, komprese a dekomprese jsou již zpracovány úložnými poli,” říká. Taková použití nejsou klasifikována jako výpočetní úložiště, ale ilustrují, jak jsou řadiče úložiště chytřejší.

Hardwarová akcelerace

Ale pro Barbalace má výpočetní úložiště vyšší ambice. Říká, že výpočetní úložné zařízení by mohlo provádět jednoduché operace s daty, aby se snížilo množství dat, které je třeba odeslat do CPU. Zpracování dat na okraji, například na zařízení internetu věcí (IoT), je jednou z možných aplikačních oblastí, kde se data ze senzorů streamují přímo do paměťového zařízení. CPU na hranním zařízení by pak bylo upozorněno, když dojde k anomálii nebo v pravidelném časovém intervalu, aby se data senzoru nahrála do cloudu.

Někteří výrobci vyvinuli inteligentní zařízení SSD založená na aplikačně specifických integrovaných obvodech (ASIC) pro urychlení pevných funkcí, jako jsou algoritmy transkódování videa, které běží přímo na zařízeních.

Další možností je použití polních programovatelných hradlových polí (FPGA) pro zrychlení pevných funkcí. Společnost Xilinx vyvinula platformu založenou na FPGA, která se používá ve výpočetním úložném zařízení Samsung SmartSSD.

Společnost ve čtvrtém čtvrtletí roku 2021 vykázala 20% nárůst svého podnikání v oblasti datových center a skladování bylo jednou z oblastí růstu. Přihláška společnosti Xilinx ve čtvrtém čtvrtletí roku 2021 ukazuje, že roční růst tržeb je tažen přijetím mezi jejími zákazníky s nadrozměrným rozsahem napříč výpočetními, síťovými a úložnými úlohami.

„Společnost Xilinx udržuje silné vztahy s hyperskalery, aby mohla poskytovat řešení pro výpočetní techniku ​​AI, akceleraci videa, skládatelné sítě a výpočetní úložiště,“ uvedla společnost ve svém finančním prohlášení za Q4 2021.

Jeden z jejích partnerů, společnost Lewis Rhodes Labs, nabízí to, co popisuje jako kybernetické forenzní vyhledávání v úložných zařízeních. Jedná se o vyhledávací stroj s regulárním výrazem, který podle společnosti byl optimalizován pro detekci anomálií. Podle Lewis Rhodes Labs dokáže zařízení s akcelerací FPGA, vybavené 24 SmartSSD, prohledávat 96TB úložiště rychlostí 60 Gb / s, což přináší výsledky za méně než 25 minut.

NGD Systems je další společnost, která je často zmiňována v rozhovorech o výpočetním úložišti. Nabízí inteligentní SSD založené na procesoru ARM, což znamená, že její produkty mohou používat operační systém Linux, na kterém lze poté spouštět obecnější algoritmy.

V únoru 2020 společnost NGD Systems oznámila kolo financování série C v hodnotě 20 mil. USD na podporu a urychlení výroby a nasazení toho, o čem tvrdí, že je první výpočetní úložnou jednotkou NVMe (energeticky nezávislá paměť) na světě. Mezi oblasti aplikací patří poskytování způsobu spouštění umělé inteligence a strojového učení v zařízení, kde jsou uložena data.

Booking.com používá tuto technologii ve svých vlastních datových centrech. Napájení a latence zápisu jsou klíčové metriky datových center v datových centrech webových stránek o cestování.

Peter Buschman, produktový vlastník úložiště společnosti Booking.com, říká: „S ohledem na tuto kombinaci vlastností jsme zjistili, že disky NGD Systems jsou nejlepší ve své třídě. Zejména latence byla u zařízení s tak malým odběrem energie trvale nízká. Díky naší síle, nikoli prostoru, který je naším největším omezením, a rostoucímu zájmu o dopad na životní prostředí, je tato technologie velkým příslibem pro použití v prostředích datových center nové generace. “

Výpočetní úložiště se neomezuje pouze na přidávání inteligentních funkcí přímo na SSD. Stejně jako se grafické karty vybavené GPU používají k urychlení aplikací optimalizovaných pro paralelní výpočty, lze k základní desce počítače za účelem urychlení určitých funkcí zpracování dat zapojit rozšiřující paměťovou kartu.

Programování výpočetního úložiště

V článku, který spoluautorem s Microsoft Research, Barbalace zkoumala, jak lze přizpůsobit aplikace využít výpočetní úložiště. Říká, že existuje mnoho algoritmů, které lze klasifikovat jako toky dat. Jedním z příkladů je AWS Lamda, který se používá ke zpracování datových toků. “Aplikace může rozdělit data, aby mohla proudit do více částí,” říká. “Jeden z nich lze přiřadit k výpočetnímu úložišti.”

Například pracovní zátěž AI může být rozdělena tak, že některé části běží přímo na výpočetním úložišti, zatímco jiné části používají CPU. Vysoce distribuované vysoce výkonné výpočetní úlohy, jako je předpovědi počasí, mohou být také schopny využít výhody výpočetního úložiště. “Otázkou je, zda lze data na výpočetním úložném zařízení zpracovávat efektivněji,” říká Barbalace.

To platí pro místní i cloudová data. Nedávný příklad z Amazon Web Services (AWS) ukazuje, jak lze zpracování dat přesunout blíže k místu, kde jsou uloženy, aby se zvýšila efektivita. Ačkoli to není striktně výpočetní úložiště, v a blog zveřejněný v březnu 2020„Architekti AWS David Green a Mustafa Rahimi diskutovali o tom, jak by bylo možné použít funkci cloudového úložiště S3 s názvem S3 Select k provádění dotazů SQL přímo na data uložená v cloudu Amazon.

Napsali: „Zákazníci mohli nahrávat data přímo do S3 pomocí AWS SFTP [secure shell file transfer protocol] a poté dotaz na data pomocí S3 Select. Tuto práci lze automaticky spustit spuštěním AWS Lambda po novém souboru CSV [comma separated value] objekt se nahraje na S3 pomocí oznámení události S3. Prohledávání vašich dat pomocí S3 Select vám může potenciálně ušetřit čas a peníze vynaložené na prohledávání dat jinými způsoby. “

Papír od Barbalace a Microsoftu také pokrývá dvě další možnosti programování výpočetního úložiště. Sdílená paměť je technika často používaná v multiprocesorovém hardwaru, která umožňuje různým procesorům pracovat na stejné sadě dat. Tuto techniku ​​lze také použít na výpočetní úložiště, pokud je odpovídajícím způsobem upraven systémový software.

Výpočet typu klient / server je třetí kategorií výpočetního úložiště, kterou Barbalace identifikoval ve svém výzkumu. Článek od NGD Systems a výzkumníků z University of California a University of Tehran, publikovaný v Journal of Big Data v roce 2019, diskutovali o tom, jak by výpočetní úložiště mohlo stavět na vysoce distribuovaném přístupu k ukládání a zpracování dat, který používá Hadoop MapReduce se svými DataNodes, které se používají k ukládání a zpracování dat.

„Výpočetní úložná zařízení s podporou Hadoop mohou současně hrát roli rychlých úložných jednotek pro konvenční Hadoop DataNodes i DataNodes s povoleným zpracováním v úložišti, což má za následek zvýšení výkonu při zpracování,“ napsali autoři zprávy.

Výzvy a budoucí směřování

Na výpočetní úložiště je stále začátek. Hlavní analytička CCS Insight Bola Rotibi věří, že jednou z výzev je, jak se správci úložišť vyvíjejí v programátory. “Lidé ze skladu nedělají příliš mnoho programování,” říká.

Armstrong-Barnes z HPE není přesvědčen o tom, že inteligentní SSD a výpočetní úložiště dosáhnou stejného úspěchu jako GPU v běžných počítačích. “Ropa se příliš dobře nemíchá, a to je výzva při přidávání úloh datové vědy z různých míst,” říká.

Pro Barbalace zůstává jednou z oblastí, která stále není vyřešena, více nájemních vztahů, protože a kdy je výpočetní úložiště poskytováno poskytovateli veřejného cloudu na vyžádání. Protože data jsou uložena ve veřejném cloudu napříč více fondy úložišť, může být nutné výpočetní úložiště spouštět na konkrétní podmnožině dat, která mohou být rozdělena mezi různé fyzické servery.

Navzdory těmto výzvám je důvodem, proč lidé uvažují o výpočetním úložišti, exponenciální růst objemů dat. „Dnes jsou data ukládána určitým způsobem čistě kvůli vývoji architektury CPU,“ říká Adrian Fern, zakladatel a technický ředitel společnosti Prizsm Technologies. “Ale není to vhodné, pokud jde o přístup k objemům dat, která jsou nyní k dispozici, a exponenciální růst, který zažijeme, když se přiblížíme kvantovému věku.”

Takže i když je výpočetní úložiště stále ještě v počátcích, hlavní kvantové výpočty jsou také v rané fázi vývoje. Jak se však tyto dvě oblasti výpočetní techniky vyvíjejí, může být pro udržení kroku potřeba výpočetní úložiště zpracování chuti kvantového počítače.

Share

Leave a Reply

Your email address will not be published. Required fields are marked *