K tomuto článku mě přivedla dlouhá, bolestná cesta testování, zkoušení a laborování, slepých uliček a krachů. Najdete tady návod, jak mít fotografie vždy k dispozici a jak je mít spolehlivě zálohovány. Samozřejmě lze tento postup použít pro zálohování i jiných digitálních dat.
Celý systém a postup zálohování fotografií v digitální podobě jsem nejdříve vyzkoušel, nastavil, používal 5 let a teprve teď jsem si troufnul vám nabídnout postup pro zálohování fotografií.
***Než vstoupíte do článku, přijměte prosím informaci, že jsem nechtěl na tomto místě zatěžovat všemi detaily ohledně různých zálohovacích médií, nastavení, popisy typů a výhod RAIDů, uvádění statistik a porovnávání chybovostí médií, apod. Prostě jsem chtěl napsat stručnou odpověď na jeden z vašich nejčastějších dotazů. A jak vidíte, nestručnější odpověď zabrala několik stránek.
V době filmů nebo diapozitivů tvořilo samotné médium originální data a záloha se rovnala archivaci, mohla být buď ve formě přefocení filmu na jiný film, sken filmu na skeneru nebo vytvoření fotografií z filmu. Bylo to šíleně pracné a drahé a dneska nepředstavitelné.
V digitálním světě, kdy fotografové chrlí 300 miliónů fotografií denně jenom na Facebook (viz můj článek o publikování fotografií na Facebooku tak, aby vám fotografie nezničil) jsme zahlceni také vlastními fotografiemi. A ruku na srdce, kdo máte tu sílu drsně, nekompromisně a denně promazávat? Objem digitálních fotografií tedy výrazně roste. A kardinální zní je: JAK OMEZIT JEJICH ZTRÁTU?
Prošel jsem si cestu od filmu (těch mám plné šuplíky) až po DVD (které jsem po několika letech nepřečetl a jsou straaaaašššššnnnnněěěěě pomalé).
DVD | HD | |
Obvyklá kapacita jedné jednotky | 4,7 GB | 1 TB |
Obvyklá cena jedné jednotky | 7 Kč | 1700 Kč |
Obvyklá cena za 1 MB kapacity | 0,00148 Kč / MB | 0,0017 Kč / MB |
Podle této tabulky je na tom hardisk a DVD médium velice podobně, co rozhoduje je rychlost přístupu k datům (hledat jednu fotografii na 200 DVD discích není vůbec jednoduché, ani rychlé).
Nakonec jsem vymyslel řešení s malým serverem a zálohováním na externí disky.
Rád bych se s vámi podělil o své řešení, které mám zaběhnuté, a zatím - nechci to zakřiknout - jsem neřešil žádný vážný incident. Dokonce, i disky se všechny točí již mnoho let, 4-6 roků. Mé požadavky se odvíjely od požadavku na zálohu celkového objemu cca 1,5 TB dat s RAW fotografiemi a 1 TB dat vlastních videí, většinou MOV. Celkový počet zálohovaných souborů je 291 000, počet fotoaparátů 79, objektivů 179 (to mi řekl můj Lightroom).
Samozřejmě, že v ideálním případě bych si vybrat nějakou metodu zálohování na Cloud (ale stejně bych na to nespoléhal). Dnešní rychlosti internetu jsou takové, že zrovna rychlost připojení není až takový problém. Ale...
Pro zálohy na cloud ale vystupují jiné problémy:
Vybrat si jednoúčelový box pro zálohu? Proč ano/ne.
Nejdříve se mi zalíbilo řešení na míru, takové ty jednoúčelové NAS, které koupíte od 1000 korun výše, ale spíše kolem 4-8 tisíc, dáte do nich prostě dva nebo více disků, nakonfigurujete a pustíte. Umístíte někam do kouta a nestaráte se. Jejich výhody:
Já jsem si před 6 lety vybral QNAP model TS-409, který měl uvnitř 4 hot swap sloty na SATA disky. Nakonfiguroval jsem si je tak, že dva disky byly v mirroru - RAID 1 (kdo nevíte, viz tady) a další dva disky volně jen jako uložiště. Krasně to fungovalo. Uložiště jsem používal jako vzdálený disk na síti.
Problém jednoúčelového řešení pro zálohování fotografií:
Finální řešení vykrystalizovalo po zkušenostech. Malý server s pevnými disky a zálohování na externí pevné disky vypadalo přístupně cenově a z pohledu spolehlivosti.
Postupem času, cca dvou let, jsem došel k závěru, že musím změnit výkon NAS. Na dosah mi bylo řešení založené na PC architektuře (měl jsem zbytky jednoho servříku - desku, procesor, paměti) a Linuxu (zdarma a mám ho rád, protože je to modulární open source řešení). Rozhodl jsem se postavit PC s Linuxem, do něj jsem umístil všechny své potřebné disky (a mám je tam stále). Linux NAS běží de-facto nonstop bez výpadků, nemám ho na UPS (měl jsem).
Hardware: PC architektura, deska, procesor nějaký AMD, paměť 8 GB, SATA disky, celkem mám v NAS 5 disků
Podstatné je, že toto mé řešení dovoluje používat kdykoliv v síti jakoukoliv fotografii, zpracovávat, kopírovat. Dostupnost fotografií je tedy v reálném čase a současně je mé řešení nastaveno jako zálohovací, fotografie máte online + zálohované. |
Celé řešení se tak skládá ze serveru s online fotografiemi dostupnými kdykoliv + sadou externích pevných disků, na které zálohuji.
A teď to nejdůležitější - jak to celé funguje, jaký je workflow? Zde popíšu přesné důvody a postup, jak putují fotografie z fotoaparátu, karty, do Katalogu, jak se dostanou na NAS server, na RAID 1 pole, až na zálohu.
Na NAS serveru mám 5 disků, 1 systémový (nezálohuju, protože Linux lze obnovit hravě, ani už nevím, co tam je za verze), 1 disk data, 1 disk data, jedno pole RAID 1 se dvěma disky a nejdůležitějšími fotografiemi a videi. V serveru jsou disky s ostrými fotografiemi, se kterými pracuji, pak existují zálohy těchto fotografií (mimo kancelář) a zálohy záloh fotografií (v bance). Postup zálohy fotografií vypadá takto:
Tento postup funguje již 5 let. Kdybych ztratil některé fotografie...
Jak je řešen výpadek některého disku
Na FB padl ještě dotaz, jaké
Na FB padl ještě dotaz, jaké řešení je dostatečně jednoduché pro obyčejného smrtelníka. Tady je má odpověď, ať je to tu pěkně pohromadě s původním článkem:
Nejjednodušší jsou a nízké vstupní náklady mají specializované cloudové zálohovací služby – např. CrashPlan nebo Backblaze. Nevýhodou je počáteční pomalý náběh služby (než se poprvé zazálohují všechna data), přírůstkové zálohy jsou pak už většinou v pohodě. Není to samozřejmě vhodná cesta pro někoho, kdo je připojen např. přes LTE modem s relativně nízkým limitem dat.
Jako doplněk k tomu je rozumné mít data zálohovaná na externím disku nebo diskovém poli, což jednak zajišťuje vždy rychlejší provedení záloh i obnovu dat. Dalším důvodem, proč mít lokální kopii, je to, že v případě cloudové služby musíte věřit poskytovateli, že to celé nevypne – stát se to může a v krajním případě nemusíte dostat šanci data stáhnout. Zní to drasticky, ale správně nastavené zálohování vždy počítá s tím, že některá ze záloh může nenávratně a rychle zmizet, přičemž pravděpodobnost, že najednou přestane fungovat cloudová služby i vaše místní kopie je samozřejmě menší, než když máte jen jednu zálohu.
U místních kopií musíte zase myslet na to, že je-li disk ve stejné lokalitě a nebo trvale připojen k počítači, kde jsou primární data, hrozí, že bude v případě krádeže nebo havárie zničen spolu s nimi.
Zálohování se samozřejmě nastavuje úměrně tomu, jak důležitá data chráníme. Já osobně to řeším takto:
1. Primární data leží na diskovém poli Synology s více disky, kdy výpadek jednoho disku neznamená ztrátu žádných dat (toto většina diskových polí umí řešit sama a poměrně jednoduše při zapojení)
2. Automaticky vzniká každodenní záloha na externí disk – toto se dá naklikat na Synology v jeho webovém rozhraní. Počet starších verzí je dán kapacitou úložiště. Pokud se data moc nemění, není potřeba nějaká enormní hodnota.
3. Data ze Synology se zálohují do CrashPlanu – většina je tedy obvykle do cca 24 hodin zazálohovaná do cloudu. Během té doby leží fotky typicky ještě na původní SD kartě. V CrashPlanu je kompletně vyřešeno verzování a možnost vracet se libovolně v historii.
Nejlepší fotky obvykle dávám na svůj web v plném rozlišení (pro návštěvníky se z něj generují menší verze, originál není veřejný), takže v případě relativně málo pravděpodobného kritického souběhu výpadku všech tří umístění fotek (diskové pole, externí disk, CrashPlan) mám ještě full-res JPEGy.
Kdyby selhalo tohle všechno a o fotky jsem přišel, tak budu hrozně smutný, ale svět se nezboří :)
Celkové náklady obdobného řešení jsou cca 10 000 Kč za diskové pole a disky a cca 150 dolarů ročně za CrashPlan (rodinný plán umožňující zálohování až 10 počítačů, tarif pro jeden počítač stojí polovic).
Bylo by docela fajn přidat ještě nějakou úroveň zálohy, která nebude tak moc závislá na třetím subjektu, bude geograficky v jiné lokalitě (chráněná proti krádeži/zničení společně s primárním polem), ale umožní rychlou obnovu dat – ovšem prozatím jsem nepřišel na řešení, které by bylo za rozumnou cenu a bez ručních úkonů (jako třeba přenášení USB disků mezi více lokalitami). Software CrashPlanu jde sice používat k zálohování zdarma na jiný počítač, kde rovněž běží, a Synology umí nějaké varianty záloh na druhé diskové pole, ale jsou tam samozřejmě vždy náklady na HW na druhé straně, které se mi už nechce/nehodí nést :)
Doplním ještě, že kdysi jsem se o zálohování fotek obsáhle rozepsal pro Paladix. Článek je už staršího data, ale obecné teze z něj jsou stále platné: http://www.paladix.cz/clanky/zalohovani-fotografii-obecne-i-konkretne.html
Michal Krause https://michalkrause.com/
Martine, Tvůj systém má –
Martine, Tvůj systém má – pokud jsem to správně pochopil – jednu zásadní chybu. Máš v podstatě čtyři kopie:
1. Na kartách – přirozeně zanikají cca po 4 měsících 2. Na NASu 3. Aktuální kopii z NASu na externích discích přepisovanou relativně často 4. On něco starší kopii z NASu na druhé sadě disků v bance přepisovanou méně často
V praxi to znamená, že jsi poměrně chabě chráněn proti lidské chybě (např. nevědomky smazané soubory) nebo méně zřejmým chybám HW či SW (smazání/poškození souboru bez viditelné havárie disku). Pokud má být záloha v bance k něčemu dobrá, musíš jí občas aktualizovat, takže v relativně krátké době (řádově měsíce?) přepíšeš všude správné soubory poškozenými a máš smůlu. Spolehlivé zálohování musí verzovat a to alespoň progresivně (starší verze mají větší rozestupy), ideálně ale při každé změně. Na problém můžeš přijít klidně po roce nebo dvou.
Pokud jde o cloudové zálohování, nemá cenu se upínat k Dropboxu a spol. – nejsou to zálohovací, ale synchronizační služby, kde starší verze či smazané soubory mizí v příliš krátkém čase (obvykle měsíc). Zálohování nad nimi lze postavit, ale pouhé nahrání souborů na ně jím není. Výjimkou by mohl být francouzský Hubic, který podporuje speciální funkci zálohování a kromě toho má za rozumný peníz potřebnou kapacitu (10 TB za 50 eur ročně).
Cloudové zálohování jsou specializované služby jako Backblaze nebo CrashPlan, které mají většinou cenově dostupné neomezené úložiště, řeší správně verzování, přenos a ukládání velkých souborů (deduplikace) a v neposlední řadě nevyžadují ruční úkony (ze zkušenosti vím, že co se má dělat ručně se nedělá dost často a někdy dokonce vůbec). Prvotní záloha je u nich ale problém, pokud jde o stovky giga až terabajty dat – málokdy na ně jde nahrávat plnou rychlostí vaší linky, takže je to většinou na týdny až měsíce, během kterých je třeba zálohovat jinak. Osobně ostatně doporučuji mít dva systémy záloh i při cloudové variantě, přinejmenším kvůli rychlosti obnovy všech dat – obnovit třeba giga dat z cloudu je v pohodě, ale při kompletní havárii primárního disku už může jít o terabajty a tomu odpovídající dobu obnovy.
Michal Krause https://michalkrause.com/
Předchozí komentář jsem sem
Předchozí komentář jsem sem překopíroval z Facebooku. V dalším komentáři jsem jej na základě reakcí ještě doplnil tímto příkladem:
Jde o situaci, kdy nějakým způsobem dojde k poškození obsahu souboru, aniž by se projevily klasické příznaky havarujícího disku (špatné sektory atd.). Důvodem může být třeba vadná RAM v diskovém poli, ale i triviální chyba aplikace nebo její obsluhy. Poškozený soubor jsi zatím nepotřeboval, takže sis chyby nevšiml. Relativně rychle vadným souborem přepíšeš ten správný na místních externích discích a řekněme, že během pár měsíců pak při rotaci i ten na disku v bance. Po roce Ti někdo napíše, že chce koupit licenci na danou fotku a Ty zjistíš, že už nemáš ani jednu nepoškozenou verzi.
Rsync v tomto nijak nepomůže – pro něj se soubor prostě změnil, takže ho překopíruje. Jedinou záchranou by bylo verzování, kdy změna souboru neznamená jeho nevratný přepis, ale naopak vytvoření nové verze. Rsync obalený nějakým tím skriptováním v shellu by to technicky zvládal, protože umí vytvářet hardlinky nezměněných souborů, ale není to zrovna přímá cesta. Z unixových utilit pro příkazovou řádku se na to zaměřuje například rsnapshot nebo rdiff-backup (ten příliš nedoporučuji, protože ukládá jen rozdíly mezi verzemi souborů, což sice může hodně šetřit místo, ale zároveň je to dost zranitelné, protože poškození některé ze starších verzí znemožní obnovení novějších).
Je možné, že jsem něco v popsaném systému přehlédl, ale pročetl jsem si to dnes ještě jednou a myslím, že proti popsané situaci odolný není. Záleží samozřejmě na tom, jestli je to v kontextu daných dat únosné riziko. Osobně to doporučuji mít podchycené vždy, ale za absolutní nutnost to považuji v případě zakázkového focení, kdy klient může po čase fotky potřebovat znovu.
Michal Krause https://michalkrause.com/