Основы компьютерного зрения  (Basics of computer vision — CV)

Автор: | 12.10.2018

Цель задачи создания компьютерного зрения (КЗ) –  проложить мостик между тем, что видит компьютер, и, что видим мы.

Для компьютера изображение — это набор пикселей, у каждого из которых есть своё значение цвета.

Что в действительности зрение обозначает?  Зрение – это источник метрической и семантической информации о трехмерном мире. Т.е., с помощью зрения мы определяем размеры объектов, расстояния до них и между ними, а также можем словесно описать, к какой категории они относятся и как взаимодействуют между собой.

Люди, начинающие работать в нашей области, часто не могут понять разницу между обработкой изображений и компьютерным зрением. Вот простое правило.

При обработке изображений входом является изображение или видео, а выходом обычно является другое изображение или видео. Выходное изображение иногда является улучшенной (например, улучшенной яркостью и контрастностью) версией входного изображения. Иногда это обработанная версия входного изображения, так что на выходе получается упрощенная версия входного изображения (например, бинаризация, обнаружение краев и т. Д.). В других случаях это сжатая (например, JPEG) версия изображения или видео. Важно то, что на выходе получается изображение или видео.

В компьютерном зрении входом является изображение или видео, а выходом — информация, содержащаяся в них. Например, в стереофоническом алгоритме входом является пара изображений, а выходом — карта глубины (внутренне рассчитанная OpenCV AI Kit (OAK) ). Результатом также может быть метка класса, как мы видим в классификации изображений, или набор ограничивающих рамок и меток классов, как мы видим при обнаружении объектов.

Компьютерное зрение – результат обработки изображений, полученных от цифровой камеры, для принятия соответствующих решений. Например,  мы хотим сконструировать систему помощи водителю, которая автоматически детектирует пешеходов, и если пешеход оказался достаточно близко перед машиной, то она начинает автоматически тормозить (см. Where are Self-Driving Cars?).

Для решения подобных задач нужно прежде всего понять, что из себя представляет изображение, какие физические и геометрические закономерности используются для его получения, а потом рассмотреть  алгоритмы и подходы к решению  задач КЗ, которые известны на сегодняшнее время.

Ниже рассматриваются ряд основополагающих задач, имеющих отношение к обработке изображений и компьютерному зрению:

 

Полезные ссылки:

 

Автор: Николай Свирневский