Není CSV jako CSV

Aby mohla být otevřená data využívána, je nutné dbát na jejich kvalitu. Jak dat samotných, tak i jejich formátu. Jako první jsme shrnuli základy při tvorbě CSV souborů.

CSV (Coma Separated Values) je jedním ze standardizovaných formátů, určených k publikování otevřených dat. I přesto je velmi často špatně naformátován, což omezuje jeho využití a znemožňuje strojové čtení. Jak má CSV formát vypadat a jaké pro něj platí standardy je sepsáno v následujících řádcích.

CSV se skládá za dvou částí:

Hlavička

Jedná se vždy o první řádek tabulky, který definuje strukturu a obsah datové části. Každý sloupec odpovídá jednomu typu údaje, jehož popis je obsažen právě v hlavičce. Text v hlavičce musí být bez diakritiky a bez mezer, které musí být nahrazeny podtržítky.

Datová část

Vše kromě hlavičky je tzv. datová část. Ta je tvořena řádky jejichž údaje odpovídají struktuře definované hlavičkou. Každá buňka na řádku odpovídá jednomu údaji. Žádné buňky nejsou sloučeny ani přes řádky ani přes sloupce.

Celkově pro formát CSV platí následující pravidla:

  • Každá buňka odpovídá jednomu typu údaje, který je definován v hlavičce.
  • Buňky nesmí být nijak sloučeny.
  • Datum musí být v ISO string formátu: YYYY-MM-DD (2008-09-15)
  • Tisíce se neoddělují mezerou. Pokud chceme tisíce oddělit, je možné využít tečku.
  • Údaje se oddělují čárkou

Kódování UTF-8

Jako jedno z kritérií při posuzování kvality otevřených dat je jejich kódování. Pro kladné hodnocení formátu CSV je nutné kódování UTF-8. Toho dosáhnete jednouše, pár kliknutími navíc při ukládání souboru.

*Před uložením souboru klikneme na "Tools" a "Web Options"[www.webtoffee.com\]\*

*Zde klikneme na záložku "Encoding" a vybereme kódování UTF-8 [www.webtoffee.com\]\*

Dobrým příkladem správně zpracovaných CSV souborů může být v ČR například Český telekomunikační úřad. Jejich datovou sadu Kontroly a pokuty jsme proto využili při znázornění:

Ovšem ani ČTU se nevyhlo určité chybě. Pokud jsou údaje odděleny středníkem, zobrazí všechny v jedné buňce, jak je na obrázku dobře vidět. Údaje mají být odděleny čárkou. Nicméně tato chyba nezabraňuje strojovému čtení souboru.

Pro více detailnějších informací doporučujeme stránky ministersva vnitra, které se věnují špatné praxi při otevírání dat.