ORC (Optimized Row Columnar — Оптимизированный Построчно-Столбцовый) — это самоописывающийся, типо-осведомленный (type-aware) столбцовый формат файлов, разработанный для рабочих нагрузок Hadoop. Он оптимизирован для крупномасштабной обработки и хранения данных, предлагая значительные улучшения в производительности и эффективности хранения по сравнению с традиционными построчными форматами, такими как CSV или текстовые файлы. Файлы ORC хранят данные в столбцовом формате, что позволяет эффективно извлекать определенные столбцы без необходимости чтения всей строки. Это особенно полезно для аналитических запросов, которым требуется только подмножество данных. Формат также поддерживает различные методы сжатия (например, Zlib, Snappy, LZO) для уменьшения объема дискового пространства и накладных расходов на ввод-вывод (I/O). Кроме того, файлы ORC включают метаданные, такие как статистика о данных внутри каждого столбца, что позволяет оптимизаторам запросов пропускать нерелевантные блоки данных и дополнительно повышать производительность запросов. ORC широко используется в экосистемах больших данных, таких как Apache Hive, Apache Spark и Presto, для хранения и обработки больших наборов данных.