Начиная с 1958 г., когда Фрэнк Розенблат предложил так называемый перцептрон, специалисты по искусственному интеллекту не ослабляют попыток воспроизвести с помощью компьютера сложные процессы зрительного восприятия. Нет сомнения, что всякая попытка создать автономные машины, умеющие решать разнообразные задачи в условиях изменяющейся внешней обстановки, неизбежно приведет к необходимости наделить такие машины способностью не только видеть предметы, но и распознавать их, т.е. понимать, что именно они видят. Люди легко справляются с этим, узнавая знакомые предметы на различных расстояниях, при различном освещении и практически при любых углах зрения. То, что процессы зрительного восприятия у человека почти не затрагивают сознания, порождает серьезные проблемы с точки зрения создания ИИ: эти процессы плохо поддаются исследованиям, а поэтому их очень трудно взять за основу при разработке систем машинного зрения.

Имей мы машины, обладающие способностью распознавать, им можно было бы поручить, как минимум, операции технического контроля и сортировки на производстве; они могли бы также интерпретировать изображения, передаваемые спутниками, которые следят.например, за погодой или состоянием сельскохозяйственных угодий.

Любая система машинного зрения должна уметь формировать, анализировать и интерпретировать изображения. Задача формирования изображений решается достаточно просто: компьютер принимает от «глаз» системы (телекамер) результаты измерений силы света, отраженного от различных точек поверхностей объектов трехмерного мира. Хотя компьютер мог бы без особых затруднений превратить полученную информацию в изображение на экране, это не приблизит его к распознанию самого объекта. Поэтому система обрабатывает исходный массив чисел в соответствии с определенным алгоритмом, позволяющим выделить области, где интенсивности меняются резко или по какому-то конкретному закону. Цель такого анализа — получить описания объектов, которыми можно будет пользоваться в процессе распознавания. Определив такие свойства объекта, как цвет, форма и текстура поверхности, машина пытается сопоставить их с информацией, заранее заложенной в ее память. Сопоставление — наиболее ответственный элемент машинного зрения. Множество исследований было посвящено поискам наиболее совершенных способов представления информации в компьютере и разработке процедур, позволяющих машине на основе этой информации понять, что представляет собой наблюдаемый объект и как следует с ним поступать.

Из всех операций, выполняемых при машинном зрительном восприятии, лучше всего отработан процесс формирования изображений внутри системы. Телевизионная камера регистрирует значения силы света, отраженного от различных точек поверхностей трехмерных объектов. Эта информация преобразуется в электрический сигнал, величина которого пропорциональна интенсивности отраженного света. Далее полученный таким образом аналоговый электрический сигнал преобразуется в цифровой, воспринимаемый компьютером. С этой целью величину сигнала измеряют через равные интервалы, и каждое полученное значение переводится в число, которое показывает положение данной точки в выбранном диапазоне яркостей (интенсивностей), называемом шкалой серого. Эти числа образуют двумерную решетку — массив уровней серого, каждый элемент которой соответствует некоторой точке преобразованного в цифровую форму изображения — пикселу (pixel, производное от picture element — элемент изображения).

В устройствах машинного зрения для систем искусственного интеллекта шкала серого обычно охватывет диапазон от 0 до 255: нуль соответствует самым темным точкам изображения, 255 — самым светлым. В системах цветного зрения отдельно измеряются интенсивности по каждому из основных цветов: красному, зеленому и синему. Они преобразуются в три массива значений яркости, где каждое значение может меняться в пределах от 0 до 255. Таким образом, в системах цветного зрения на каждый пиксел приходится обрабатывать втрое больше информации, чем в черно-белых.