Глава 10. Зрение робота

Можно сказать, что мы живем в золотой век компьютерного зрения. Веб-камеры являются дешевыми, а такие глубинные камеры, как Microsoft Kinect и Asus Xtion, позволяют даже роботу-любителю работать с 3D-зрением, не нарушая при этом стоимость дорогой стереокамеры. Но получение пикселей и значений глубины в вашем компьютере – это только начало. Использование этих данных для извлечения полезной информации о визуальном мире является сложной математической проблемой. К счастью для нас, десятилетия исследований, проведенных тысячами ученых, привели к созданию мощных алгоритмов видения от простого сопоставления цветов до детекторов людей, которые мы можем использовать без необходимости начинать с нуля.

Общая цель машинного зрения состоит в том, чтобы распознать структуру мира за изменяющимися значениями пикселей. Отдельные пиксели находятся в состоянии постоянного изменения из-за изменений освещения, угла обзора, движения объекта, окклюзии и случайного шума. Таким образом, алгоритмы компьютерного зрения предназначены для извлечения более стабильных функций из этих изменяющихся значений. Объектами могут быть углы, ребра, пятна, цвета, участки движения и так далее. После того, как набор надежных объектов может быть извлечен из потока изображения или видео, их можно отслеживать или группировать в более крупные шаблоны для поддержки обнаружения и распознавания объектов.

Last updated