Home     People     Activities     Research     Publications    

 

Yurin's home page

My graduate students

How to program

Basic Literature

Important links

Some notes on Computer Vision topics

Current C++ codes

Research problems for students

Dmitry V. Yurin personal page

Научно-исследовательские задачи, решением которых могут заняться мои студенты

Мои научные интересы

Мои научные интересы включают в себя задачи восстановления трехмерных сцен по набору цифровых изображений, построение мозаик (панорам) и сегментацию изображений. Это также влечет за собой ряд сопутствующих задач.

 

Краткий обзор методов восстановления трехмерных сцен

 

В настоящее время разработано большое количество разнообразных подходов к решению задачи восстановления трехмерных сцен по их двумерным изображениям. Эти подходы можно подразделить на:
  • Shape from Stereo, восстановление 3D по стерео паре, которое в свою очередь подразделяется на
    • Standard stereo, предполагается, что расстояние между камерами невелико, порядка 7 см., как между глазами человека, оптические оси камер параллельны (т.е. изображения ректифицированы, эпиполярные линии параллельны строкам изображения, соответствующие точки всегда находятся на одинаковых строках пары изображений).
      • From feature points, методы основанные на поиске характеристические точек и их сопоставлении между двумя кадрами, в промежутках между ними - какой либо вид интерполяции.
      • Dense stereo - между двумя изображениями ищется соответствие между каждой парой пикселей, поскольку бывают области, где какая либо текстура отсутствует, то налагаются ограничения гладкости. Хорошие алгоритмы ищут карту смещений как кусочно-гладкую функцию, с ограниченным количеством линий разрыва и учитывают, что некоторые точки видны только на одном изображении (occlusion).
    • Wide baseline stereo - стерео с широкой базой. Достоинство - возможность достижения существенно лучшей точности. Проблемы связаны с тем, что точки объекта могут выглядеть существенно по разному с различных ракурсов, площадь затенений (occlusions) - может быть сопоставима с площадью кадра. Методы обычно основаны на поиске и сопоставлении характеристических точек.
  • Shape from Motion - восстановление 3D из большого количества изображений этой сцены. Интерес к этим подходам связан с тем, что в отличие от стерео можно восстановить положение и ориентацию камер, внутренние параметры камер (фокусное расстояние), т.е. параметры, которые очень часто неизвестны, особенно при съемке фотоаппаратом с рук. Кроме того, большое количество кадров дает возможность проверки, что сопоставления выполнены правильно. Дополнительно, в ряде случаев можно еще и получать оценки точности восстановления, соответствующие именно данной сцене!
  • Shape from Manhattan - в случае когда известно, что сцена в основном формируется прямыми линиями и плоскостями, можно много информации извлечь из одного изображения. Если кроме того известно, что плоскости, составляющие сцену взаимно перпендикулярны (что часто встречается в искусственных сценах таких как помещения и городская застройка), то удается восстановить сцену полностью.
  • Shape from Shading - восстановление 3D по одному изображению, грубо говоря - на основе закона рассеяния Ламберта. Для сложных сцен не работает, на для изображений типа гипсовых статуй - по-видимому единственный способ (выше перечисленные не будут работать, так как не удастся найти характеристических особенностей). Разработано огромное количество методов, некоторые дают очень хороший результат, недостаток - непредсказуемо какой именно метод даст хороший результат для каждой конкретной сцены.
  • Shape from Focusing and Defocusing - если имеется ряд изображений, снятых с одной точки, но с различной фокусировкой, то в зависимости от удаленности, разные части сцены на изображении имеют различную степень резкости. По фокусировке - меняя фокусировки находят какая часть в данный момент резкая, расстояние до этих частей равно расстоянию фокусировке. Если есть два изображения полученных при разных расстояниях фокусировки - то анализирую степень дефокусировки также можно найти трехмерную форму (например анализируя Фурье спектры).
  • Shape from Texture - если известно, что сцена имеет поверхности с одинаковой текстурой (например оклеена обоями в клеточку), то анализируя изменение видимого размера элементов текстуры можно восстановить форму.
  • Exotic: Shape from Scattering etc. Например есть алгоритм определения расстояний по атмосферной дымке. Иногда такие методы могут быть полезны, но область применения их обычно существенно ограничена.
  •  

    Задачи

     

    Восстановление 3D по фотографиям, получаемым с помощью стереоприставки "Loreo 3D Lens in a Cap"
    Поиск и сопоставление плоских фрагментов трехмерной сцены (городские пейзажи) на основе анализа точек пересечения пучков прямых линий, принадлежащих двум разным исчезающим точкам
    Поиск и сопоставление плоских фрагментов трехмерной сцены на основе объединения подходов поиска характеристических точек (SIFT) и метода, предложенного Zokai, Wolberg 2005
    Восстановление 3D по виртуальным точкам, образованным пересечением линий , найденных (Edge detector) на изображениях с эпиполярными линиями
    Разработка алгоритма детектирования характеристических точек и их сопоставления для цветных изображений
    Разработка хорошего алгоритма детектирования линий (границ) на изображениях
    Восстановление 3D по одному изображению на основе анализа прямых линий (миры Манхеттена и Атланты)
    Обнаружение и маркирование на изображениях областей, соответствующих растительности и водным поверхностям

     

     

    Восстановление 3D по фотографиям, получаемым с помощью стереоприставки "Loreo 3D Lens in a Cap"

    Фирма Loreo (www.loreo.com) выпускает стерео насадку, которая устанавливается на ряд моделей фотоаппаратов (в частности Canon EOS) вместо объектива. См. рисунок:

    Насадка содержит два маленьких объектива (линзы) перед каждым из которых находится по перископу. Таким образом на фоточувствительную матрицу проецируется одновременно два изображения, каждое на свою половину матрицы. Размер стерео насадки (перископов) таков, что две части изображения соответствуют расстоянию между точками наблюдения примерно 7 см., т.е. такому же как и расстояние между глазами человека. Пример получаемого изображения (уменьшенный) приводится на рисунке.

    Цель работы состоит в том, чтобы научиться создавать по таким изображениям трехмерную модель (например VRML).
    Первоочередные задачи, которые требуют решения:
  • Калибровка - устранение бочки.
  • Восстановление эпиполярной геометрии.
  • Ректификация изображений.
  • Восстановлении 3D по ректифицированным изображениям каким-нибудь известным алгоритмом.
  • Калибровка стерео (вычисление коэффициента перевода условных единиц в метры.
  • После того, как в целом система заработает предполагается ее совершенствование и развитие (в частности в части разработки лучшего стерео алгоритма).
  •  

    Поиск и сопоставление плоских фрагментов трехмерной сцены (городские пейзажи) на основе анализа точек пересечения пучков прямых линий, принадлежащих двум разным исчезающим точкам.

    На изображениях городских сцен обычно присутствует большое количество прямых линий, многие из которых в трехмерном мире параллельны. Такие параллельные линии на изображениях сходятся в одной точке (vanishing point), которая только в редких случаях оказывается на бесконечности (линии на изображении тоже параллельны). Области, где много параллельных линий, принадлежащих двум разным исчезающим точкам, потенциально могут являться структурами типа окон дома. Наличие в этой области двух разных пучков прямых линий позволяет оценить матрицу гомографии (проективного преобразования), переводящей этот фрагмент изображения в проекцию соответствующую такой, как будто оптическая ось объектива при съемке была перпендикулярна плоскости объекта (естественно только в том случае, если гипотеза о плоскости была верна). Проверить гипотезу можно прямым вычислением корреляции найденных потенциально плоских фрагментов изображений.

    Если между двумя изображениями найдено два таких не параллельных плоских участка, соответствующих друг другу, отсюда можно найти эпиполярную геометрию и вычислить фундаментальную матрицу. После этого для остальных областей изображений можно восстанавливать 3D стандартными способами, а для сопоставленных плоских участков задача уже решена.

     

    Поиск и сопоставление плоских фрагментов трехмерной сцены на основе объединения подходов поиска характеристических точек (SIFT) и метода, предложенного Zokai, Wolberg 2005.

  • Siavash Zokai, George Wolberg. Image Registration Using Log-Polar Mappings for Recovery of Large-Scale Similarity and Projective Transformations //IEEE Transactions on Image Processing, Vol. 14, No. 10, October 2005. PDF

  • Существенным элементом задачи является то, что после верного сопоставления некоторых регионов, их можно пытаться экстраполировать и по большей области снова применять тот же метод (Zokai, Wolberg 2005) для уточнения параметров модели. На приведенном рисунке, в частности результатом будет веро сопоставленная вся площадь фасада, включая нахождение его границ.

     

    Восстановление 3D по виртуальным точкам, образованным пересечением линий , найденных (Edge detector) на изображениях с эпиполярными линиями.

    Обычно количество найденных характеристических точек на изображениях и количество верно сопоставленных таких точек между двумя и более изображений недостаточно для построения адекватной трехмерной модели (триангуляция по точкам с построением сеточной модели, меша). С другой стороны, если таких точек хватило для восстановления эпиполярной геометрии (фундаментальной матрицы, обычно достаточно порядка 100-400 соответствий при проценте ошибочно установленных соответствий менее 40%), то можно построить дополнительные точки, как пересечение эпиполярных линий с линиями найденными на изображениях. Таких точек получится много, более того - они лежат в "интересных" местах - на границах объектов. Здесь следует заметить, что детекторы характеристических точек обычно находят и сопоставляют точки на локально плоских участках сцены, что естественно при построении сеточной модели приводит к срезанию углов и непохожести полученной модели на оригинал. Дополнительными ограничениями, позволяющими проверить адекватность сопоставления таких виртуальных точек является принцип непрерывности линии - как в 2D, так и в 3D. Если изображений больше 2 - такая проверка становится еще более достоверной, практически стопроцентной надежности.

     

    Разработка алгоритма детектирования характеристических точек и их сопоставления для цветных изображений.

    Задачи восстановления эпиполярной геометрии, стерео на основе характеристических точек и восстановления 3D по большому количеству кадров (Shape from Motion) рассмотренные выше существенно завязаны на поиск и сопоставления характеристических точек. Это- основа, и для нее естественно требуется хороший детектор точек. В настоящее время наиболее успешными являются детекторы SIFT и SURF. Их недостатком является то, что они работаю по серым изображениям. Так как изображения обычно цветные, пренебрежение цветовой информацией представляется неоправданной. Так, например если на изображениях имеется два автомобиля красный и зеленый - глупо уходить в тонкости анализа текстур не ограничив сразу, что зеленое должно соответствовать зеленому, а красное красному. Цвет в данном случае важнее, чем мелкие различия в форме радиатора. Кроме того, при переводе изображений в серые, некоторые хорошо видимые детали могут стать неразличимыми или слабо заметными. Предлагается учитывая огромный опыт известных детекторов разработать свой метод, применимый как для серых так и цветных изображений.

     

    Разработка хорошего алгоритма детектирования линий (границ) на изображениях.

    В задачах о восстановлении городских сцен, виртуальных точках, упоминавшихся выше и 3D по одному изображению (следующая) существенно важен хороший детектор линий. Предлагается его разработать и реализовать в виде отлаженной библиотечной процедуры. Для этого требуется интегрировать накопленный мировой опыт в единую систему. Все подробности достаточно хорошо описаны в списке основной литературы в разделе Edge detection.

    Дополнительно, можно построить хороший алгоритм сегментации изображений, который полезен как сам по себе, так и в задачах восстановления трехмерных сцен. Основная идея - Выбираются хорошие линии (длинные, ярки, гладкие), пиксели, прилежащие к границе рассматриваются как источник и приемник в задаче максимального потока в сети.

     

    Восстановление 3D по одному изображению на основе анализа прямых линий (миры Манхеттена и Атланты).

    В том случае, когда трехмерная сцена образована прямыми линиями( помещения, городские пейзажи) часто возможно восстановить трехмерную сцену по одному изображению. Например, если удалось найти плоскость пола, а стены ему перпендикулярны, то положение точки пола из который исходит ребро стены однозначно определяется по координатам на изображении. Из этих координат исходит вертикальная прямая линия. Подробнее - см. книгу Хартли (основной список литературы), Part I, Single View Geometry. Задача весьма актуальна, для начала следует последовательно реализовывать и опробовать методы, изложенные в книге.

     

    Обнаружение и маркирование на изображениях областей, соответствующих растительности и водным поверхностям.

    Это важно в задачах восстановления трехмерных сцен и при построении панорам. Что касается восстановления трехмерных сцен, обычно наибольший интерес представляют искусственные структуры, а растительность достаточно грубо оконтурить. Кроме того, что понимать под восстановлением трехмерной формы скажем дерева, вопрос сложный. Восстановить форму каждого листа и веточки? Так не все такие детали могут быть разрешимы на изображении. Да и модель получится избыточно сложная, которая в большинстве случаев и не нужна. В задачах построения панорам - такие программы желательно чтобы работали автоматически. Они обычно основаны на поиске и сопоставлении характеристических точек, а кадры сняты в разные моменты времени. Водные поверхности и растительность могут занимать значительную часть изображения, на этих участках будет находиться большое количество характеристических точек, но для сопоставления они не подходят, так как под действием ветра форма таких объектов меняется. Было бы интересно такие точки отсечь и проводить сопоставление только по оставшимся точкам.

    Метод решения этой задачи основан на анализе текстур и машинном обучении. Для водных поверхностей, можно попытаться построить дополнительные признаки, основанные на известной формуле для спектра ветрового волнения.