Категории

Cуществуют следующие способы оплаты за занятия:

  • Абонемент на 8 посещений (срок действия 1 месяц) - 300 грн.;
  • Абонемент на 4 посещения (срок действия 1 месяц) - 200 грн.;
  • Абонемент на 12 посещений(срок действия 1 месяц) - 400 грн.;
  • Разовое посещение - 60 грн.
(ДЛИТЕЛЬНОСТЬ ЗАНЯТИЙ ПО 1,5 ЧАСА)

Світ інтерактивних мультимедійних систем і додатків

  1. Основи інтерактивних мультимедійних систем
  2. Приклади створення інтерактивного мультимедійного контенту
  3. Захоплення зображення з камери і перетворення кадрів в Linux
  4. Малюнок 1. Діаграма MPEG-кодування Agilent Technologies
  5. Малюнок 2. Приклад OpenCV-обробки макроблоків ДКП для одного колірного каналу
  6. Малюнок 3. Просте зображення стандарту RenderMan, створене в Pixie
  7. Анотація графічних кадрів
  8. Майбутнє інтерактивних потокових мультимедійних систем і додатків
  9. Ресурси для скачування

Наше деловое партнерство www.banwar.org

Важливість мобільного хмарної аналітики і залученості користувачів

Засоби аналізу цифрового відео і даних, що передаються по мережних каналах, стрімко розвиваються у міру переходу кабельних систем на цифрові технології - в США і по всьому світу, - широко розповсюдженим цифрового кінематографа з такими новими функціями, як 3D, і появи мобільного доступу до цифрового мультимедійного контенту зі смартфонів і планшетних пристроїв. Лише десять років тому більшість постачальників кабельних послуг стали пропонувати цифрове кабельне телебачення, а також відео високої роздільної здатності та перегляд програм на вимогу. Ця тенденція продовжує розвиватися - соціальні взаємодії інтегруються з цифровим кабельним телебаченням, а специфікація Data Over Cable Service Interface Specification (DOCSIS) забезпечує надання інтернет-сервісів через кабельні модеми.

У той же час з'явилися постачальники контенту і інтерактивних сервісів на вимогу, що надаються виключно через Інтернет, в тому числі Netflix, Hulu, Gaikai (придбана компанією Sony), NVIDIA Cloud, Gamasutra і багато інших (див. Розділ ресурси ). Розвиток кінематографу призвело до того, що в США і по всьому світу кіно стало тепер повністю цифровим на базі стандарту 3D Digital Cinema Initiative, а кіноплівка залишилася в минулому разом з вініловими платівками та магнітними записами. У 2007 році Федеральна комісія із зв'язку припинила аналогове телемовлення по стандарту NTSC в США, замінивши його цифровим телемовленням за стандартом ATSC (Advanced Television Systems Committee). До теперішнього часу аналогових носіїв будь-яких типів залишилося дуже мало.

Величезна перевага цифрового контенту полягає в тому, що його можна надавати на вимогу, передавати на інші пристрої і записувати для перегляду в зручний час, пов'язувати з соціальними мережами і засобами аналізу великих даних. До того ж він більш економічний і безпечний у виробництві, розповсюдженні та споживанні. І, нарешті, повністю цифровий мультимедійний світ підтримує участь значно ширшого спектра дизайнерів і розробників, включаючи споживача як інтерактивного учасника. Той, хто мислить творчо, має деякі комп'ютерні навички та терпіння, може влитися в цю нову креативну цифрову культуру.

Основи інтерактивних мультимедійних систем

Цифрові мультимедійні матеріали - це аудіо, відео та комп'ютерна графіка, часто інтегровані, - утворюють контент і додатки для перегляду і прослуховування. Інтерактивні мультимедійні системи додають можливості, що дозволяють користувачеві управляти поданням цифрового відео-, аудіо- та графічного контенту, щоб користувач міг як мінімум контролювати його відтворення. Однак можливості взаємодії з користувачем можуть бути значно ширшими і розвиненими - як в додатках доповненої реальності, де фіксується камерою відео реального часу поєднується з графікою, анотує уявлення світу. Взаємодія з мультимедійним контентом може бути простим, як, наприклад, перегляд web-ресурсів користувачами цифрового кабельного телебачення, або складним, таким як використання очок Google Glass (див. Розділ ресурси ), Коли розглянутий користувачем реальний світ доповнюється інтерактивними графічними шарами для реалізації концепції доповненої реальності.

Поєднання аналізу зворотного зв'язку з користувачем - будь то дії в графічному інтерфейсі або жести і міміка, які розпізнаються камерою, - з поданням мультимедійного матеріалу, включаючи графічний шар, формує високоефективний контент, здатний активніше залучати користувача у взаємодію. Google, Facebook, Twitter і піонери в області web-аналітики використовують зворотний зв'язок через графічний інтерфейс в браузері для адаптації HTML-документів, але уявіть собі додатки, які буквально перемальовували доповнене уявлення реальності. Нові пристрої, такі як окуляри Google Glass, шолом Oculus Rift, інерціальні датчики (наприклад, InvenSense і STMicroelectronics) і безліч передових інтерактивних пристроїв з розпізнаванням жестів відкривають новий світ додатків, які об'єднують трансляцію з камер з відео, аудіо та графікою. Далі в цій статті розповідається про ключові методи та інструменти з відкритим вихідним кодом, що дозволяють розробляти програми для інтерактивних мультимедійних систем.

Успішні програми для інтерактивних мультимедійних систем повинні використовувати передові інтерактивні мобільні пристрої, але щоб бути дійсно привабливими, вони повинні також включати хмарну аналітику для зіставлення інтересів користувача з глобальної інформацією і соціальними мережами. Це складне завдання, оскільки розробники додатків повинні володіти знаннями про мобільні (вбудованих) системах і додатках. Далі представлений список ключових інструментів і методів, заснованих на технологіях з відкритим вихідним кодом. Спочатку я опишу їх, а потім приведу приклади рендеринга і анімації, кодування цифрового відео і базового аналізу записів і зображень з цифрових камер з використанням методів комп'ютерного зору.

  • Мобільно-хмарні операційні системи, такі як Android, які розробляються з використанням набору інструментів NDK (Native Development Kit) в середовищі Linux, мають значні переваги з наступних причин: вони дозволяють розробляти інтерфейси і драйвери для нових пристроїв (наприклад, для цифрового 3D-камери з інерціальним вимірювальним модулем), і поставляються з набором SDK, що включає інструменти розробки, які можна використовувати для створення та налагодження програм Java ™. SDK - це доступний для завантаження інструментарій (див. Розділ ресурси ), Який працює на будь-якій системі, в тому числі Windows® або Linux, але націлений на Android. Величезна цінність Android для Google полягає в тому, що сервери і мобільні пристрої під управлінням Linux можуть тепер взаємодіяти для збору вводиться користувачем інформації, її аналізу майже в реальному часі і відправки даних назад на мобільні пристрої (див. Розділ ресурси ).
    У Apple теж є операційна система iOS для мобільних пристроїв (з інструментарієм Objective-C SDK і нативним шаром Mac OS X), яку можуть підтримувати сервери Mac OS X в хмарному середовищі, однак вона застосовує більш закритий підхід, ніж Google. Проте обидві компанії створили SDK-інструментарії, що спрощують розробку і розгортання інтерактивних мультимедійних додатків. У цій статті я приділяю основну увагу Linux, оскільки вона повністю відкрита аж до пристроїв на рівні NDK. Крім того, Linux використовується в самих різних пристроях, від приставок для цифрового кабельного телебачення, смартфонів і планшетів до високопродуктивних серверів.
  • Кодування цифрових відео- і аудіоматеріалів на базі стандартів, таких як H.264 / H.265 для MPEG (див. Розділ ресурси ), Є нагальною потребою, і чим глибше розробник систем розуміє принципи кодування, тим краще буде передаватися, декодувати і представлятися цифровий мультимедійний контент. Це нетривіальна технічна галузь знань, яку творчий творець контенту може зазвичай ігнорувати, проте розробник інтерактивних систем повинен бути експертом в цій галузі. У даній статті наводиться приклад використання бібліотеки OpenCV, що дозволяє приступити до виконання першої простої задачі кодування зображень в стислий формат, подібний JPEG і MPEG. Крім того, цей приклад допоможе зрозуміти, що таке елементарний потік (для аудіо або відео), однак для розуміння програмних і транспортних потоків, використовуваних для таких стандартів, як H.264, будуть потрібні додаткові знання. Пропонуються посилання на відповідні ресурси.
  • Графічний рендеринг і анотування кадрів цифрового відео - від складної, фотореалістичної візуалізації методом променя, що біжить і полігональної графіки для ігрових движків до простого аннотирования відео (як в системі коментування прямих трансляцій футбольних матчів Monday Night Football кабельного каналу ESPN) - все це необхідно для створення шарів взаємодій з даними камер і відеозаписами. Така можливість змінювати реальність і покращувати цифровий кінематограф, цифрове кабельне телебачення та інтернет-контент лежить в основі інтерактивних мультимедійних систем. У цій статті розглядається інструмент для високоякісної (і дуже обчислювально витратною) візуалізації методом променя, що біжить Pixar RenderMan, але пропонуються і посилання на інструменти для полігонального рендеринга, а також методи простих покадрових трансформацій і анотування.
  • Розширені взаємодії і сприйняття користувачів - останній і, можливо, найважливіший тип технологій, які необхідно освоїти, оскільки вони визначають взаємодію з користувачем. Сюди входять не тільки методи аналізу використання web-ресурсів по взаємодії з графічним інтерфейсом, але і безліч інших можливостей. Ці системи повинні забезпечувати розпізнавання жестів і аналіз вирази облич, щоб бути менш нав'язливими і більш залучають. З очевидних причин необхідність зупинитися і клацнути по кнопці Like, яка перериває моє взаємодія з мультимедійним контентом, практично немислима в додатках доповненої реальності, коли я йду, граю, веду машину або керую літаком.

Це аж ніяк не вичерпний перелік технологій, необхідних для інтерактивних мультимедійних систем і додатків - про інших ви можете дізнатися в розділі ресурси . Моя мета - поставити правильний напрямок вашого мислення як розробника додатків або систем. Світ інтерактивних мультимедійних систем і додатків повинен бути мобільним, повинен включати хмарну аналітику і повинен залучати, а не відволікати користувача.

Приклади створення інтерактивного мультимедійного контенту

Мобільні інтерактивні мультимедійні системи

Доповнена реальність, де світ одночасно спостерігається особисто і через дисплей, підтримуваний камерою і графікою, - це тільки початок. Метою є можливість ненав'язливо накладати інформацію з хмари для надання її користувачам, зануреним у діяльність в своєму середовищі, щоб такий додатковий шар ставав шостим почуттям (хоча насправді люди мають кілька десятків почуттів, так що це почуття може бути і 25-м). Наприклад, якщо я вчуся грати в гольф, то мої окуляри доповненої реальності можуть вказувати відстань від м'яча до прапорця і пропонувати удар, можливо виходячи з результатів аналізу мого останнього удару в схожій ситуації. Майбутнє безсумнівно за здатністю пристроїв, систем і додатків доповненої реальності відчувати не тільки те, де я перебуваю, але і на що я дивлюся, і в упереджувальний режимі використовувати таке індивідуальне (проприоцептивное) сприйняття.

Проприоцептивное сприйняття - це почуття, яке спортсмени використовують для розвитку м'язової пам'яті, щоб, наприклад, вчитися добре бити по м'ячу в гольфі. Інерційних вимірювальний модуль (див. Розділ ресурси ) В поєднанні з 3D-камерами дозволяє реалізувати схоже сприйняття в пристроях доповненої реальності, здатних підключатися до хмарної середовищі, щоб зіставляти дані з відомостями про поле, минулими результатами і великим спектром інформації, в тому числі, можливо, для формування цільового пропозиції про покупку нової ключки на радість рекламодавця.

Створення інтерактивних мультимедійних систем і додатків, що включають хмарну аналітику, вимагає навичок в таких областях, як кодування, передача і декодування цифрового контенту, комп'ютерний зір, а також зв'язування з базами даних. Для більш розвинених додатків, таких як додатки доповненої реальності, можливо, потрібно буде досвід графічного рендеринга. В даному розділі я для початку пропоную прості приклади.

Захоплення зображення з камери і перетворення кадрів в Linux

API-інтерфейс OpenCV (Open Computer Vision) розроблений компанією Intel і пропонується тепер у вигляді відкритого вихідного коду. Він виник у зв'язку з тим, що університети, які проводять дослідження в сфері комп'ютерного зору і інтерактивних систем, знаходили величезну користь в багаторазовому застосуванні алгоритмів для обробки зображень, математики скалярних / тензорних перетворень (технічний термін для поліпшення чіткості або передачі кольору кадру, що складається з червоних, зелених і синіх пікселів), а також для реалізації таких передових концепцій, як виявлення і розпізнавання осіб.

Але перш за все треба вміти захоплювати зображення з камери в реальному часі. Приклад коду у файлі simple-capture.zip (який можна знайти в архіві opencv-examples.zip в розділі Завантаження ) Показує, наскільки це було складно навіть з такими API, як Video for Linux 2. Однак з появою OpenCV цей процес значно спростився і абстрагувався, як показано в прикладі коду у файлі simpler-capture.zip, який також є в архіві opencv-examples .zip в розділі Завантаження .

Технології комп'ютерного зору повинні мати доступ до кадрів нестислого відео до того, як воно буде закодовано з використанням стандарту MPEG для передачі. Стиснені кадри триколірного RGB-відео формують дуже великий потік даних - для 1080x1920 3-байтових пікселів з частотою 30 Гц для відео високої роздільної здатності він становить 180 МБ / сек. Нестиснене відео з бітрейтом 180 МБ / сек при стисканні за стандартом H.264 MPEG4 Part 10 буде мати бітрейт близько 20 Мбіт / сек (коефіцієнт стиснення приблизно 72: 1), що вважається гарною якістю. Більш високий бітрейт, наприклад 36 Мбіт / сек, забезпечить відмінну якість (стиснення приблизно 40: 1).

Для інтерактивних мультимедійних систем і додатків ви, ймовірно, захочете анотувати вихідні кадри, перетворити їх для знаходження меж об'єктів, або сегментувати сцени або розпізнати особи, але ви, може бути, захочете також передати відео з високим коефіцієнтом стиснення за стандартом H.264 в хмарну середу. Передача потокового може бути виконана з використанням GStreamer (див. Розділ ресурси ) І програмного забезпечення для MPEG-кодування, такого як avconv. Щоб краще зрозуміти це, давайте розглянемо один етап MPEG-кодування з використанням OpenCV - перетворення одного кадру цифрового відео в макроблоки із застосуванням ДКП (дискретного косинусного перетворення, DCT). Процес MPEG-кодування від вихідного цифрового відео до пакетів програмного / транспортного MPEG-потоку довжиною 188 байт показаний на малюнку 1.

Малюнок 1. Діаграма MPEG-кодування Agilent Technologies
Важливість мобільного хмарної аналітики і залученості користувачів   Засоби аналізу цифрового відео і даних, що передаються по мережних каналах, стрімко розвиваються у міру переходу кабельних систем на цифрові технології - в США і по всьому світу, - широко розповсюдженим цифрового кінематографа з такими новими функціями, як 3D, і появи мобільного доступу до цифрового мультимедійного контенту зі смартфонів і планшетних пристроїв

Малюнок 1 взятий з документації Agilent Technologies до стандарту MPEG2, який як і раніше використовується в системах цифрового кабельного телебачення, хоча на зміну йому швидко приходить стандарт MPEG4, що забезпечує більше стиснення і покращена якість цифрового відео. Однак MPEG2 і раніше корисний для новачків в кодуванні (в розділі ресурси є посилання на документацію Agilent). Формат MPEG2 є стандартом, задокументованим в специфікаціях 13818-1 і 13818-2 Міжнародної організації зі стандартизації (International Organization for Standardization, ISO). Новий стандарт MPEG4 і транспортна інкапсуляція з використанням стандарту H.264 (а також H.265, випущеного в 2013 році як стандарт High Efficiency Video Coding ISO / IEC 23008-2 MPEG-H Part2, ITU-T H.265) Міжнародного союзу телекомунікацій (International Telecommunications Union) задокументовані в специфікації 1449610 ISO / IEC (International Electrotechnical Commission, Міжнародна електротехнічна комісія). В розділі ресурси є посилання на завантаження стандарту H.265.

Щоб по-справжньому зрозуміти MPEG-стиснення, найкраще реалізувати свій власний кодировщик, що ви можете зробити, ефективно використовуючи OpenCV для обходу математичних деталей перетворень, таких як дискретне косинусное перетворення. (Для тих, хто не може встояти, я включив неоптимізованими 2D ДКП-перетворення та інструкції з перевірки з використанням Octave - див. Завантаження ). В цілому внутрікадрове стиснення за стандартом MPEG включає наступні етапи:

  • Субдіскретізація червоного і синього кольорів в порівнянні з зеленим
  • Розподіл кожного кадру на макроблоки розміром 8x8 пікселів
  • ДКП-перетворення кожного макроблоку
  • масштабування
  • Зважування і усічення макроблоку ДКП
  • Зигзаг-стиснення кожного макроблоку без втрат.

В результаті створюється кадр MPEG I-frame (з внутрішнім стисненням), який в свою чергу використовується як опорний в групі зображень для стиснення кадрів з урахуванням пікселів, які суттєво не змінюються від кадру до кадру (міжкадрове стиснення).

на малюнку 2 показань ДКП-макроблок 8x8 одного колірного каналу зображення (зеленого). ВІН Виглядає сірим, оскількі Відображається только один колірній канал. Експеримент з ДКП-перетворенням и зображеннями и Переконайся в тому, що таке превращение может як супроводжуватіся Втрата, так и обходити без Втрата, Втрата немає, если зберігаються реальні значення, но смороду з'являються, если ви вікорістовуєте квантування для усічення ДКП до ціліх чисел . Без усічення ДКП ви можете повністю відновити колишні дані з використанням зворотного ДКП-перетворення (iDCT), як показано на малюнку 2. Для кольорових зображень потрібно просто виконати це для кожної колірної площині.

Малюнок 2. Приклад OpenCV-обробки макроблоків ДКП для одного колірного каналу

на малюнку 2 також представлений приклад перетворення кадру - в даному випадку для цілей стиску зображення, проте перетворення можна використовувати і для пошуку кордонів (з метою аналізу і розпізнавання тексту), або для виявлення і розпізнавання осіб. Цей процес описаний в статті developerWorks під назвою Хмарне масштабування: Частина 3. Аналіз відео в хмарі .

В цілому перетворення змінюють вигляд конкретних кадрів або забезпечують спрощене кодування ключових характеристик кадру. Перетворення можна використовувати для скорочення одержуваного з камери зображення до ключових характеристик, необхідних для розуміння сцени, зафіксованої камерою, - що є основною метою комп'ютерного зору. Сучасне комп'ютерне зір ще дуже далеко від здатності людини розуміти сцену, але в деяких випадках воно може мати переваги, пропонуючи користувачам метаінформацію про сцену (наприклад, не тільки розпізнаючи зображення літака, але і визначаючи найбільш ймовірний тип і модель літака при спостереженні з землі).

А що якщо вам потрібно зворотне? Замість скорочення зображення для опису сцени ви можете перетворити простий опис сцени в фотореалістичне зображення (тобто візуалізувати його). Здатність людського зору впевнено розпізнавати об'єкти в складних, неконтрольованих середовищах виходить за рамки можливостей сучасного комп'ютерного зору. Системи комп'ютерного зору поки непридатні для отримання детальних відомостей про тип і моделі об'єктів, а також надійного опису сцен на відкритому повітрі і в інших неконтрольованих середовищах. Можливість аналізувати складні сцени в реальному часі і доповнювати їх графічним анотуванням поки знаходиться на стадії дослідних проектів. Прогрес є, але більшість рішень для комп'ютерного зору функціонують на рівні, порівнянному в кращому випадку з рівнем 2-річну дитину.

Як ви знаєте, Голлівуд виробляє цифрові кінофільми, практично неможливо відрізнити від реальних зображень. Давайте подивимося, як це робиться, використовуючи архів pixie-examples.zip в розділі Завантаження ) (Див. Рисунок 3).

Малюнок 3. Просте зображення стандарту RenderMan, створене в Pixie

Інтеграція 3D-анімації з цифровим відео

RenderMan - це мова для опису сцен з геометричними об'єктами, освітленням, перспективою, квітами і текстурами, а також координування системної обробки 3D-сцен, які відтворюються на 2D-екрані. Малюнок 3 виглядає грубим, але більш терплячий дизайнер може створювати фотореалістичні сцени при наявності достатньої кількості часу і навичок у використанні цієї мови.

Кожна сцена, відтворена в кадрі, може в свою чергу бути анімована для створення цифрового відео із застосуванням простих покадрових модифікацій. Наприклад, я включив закодований MPEG4 для малюнка 3 , В якому спостерігач обертається навколо координатної осі y, що передає відчуття польоту над конусами, сферою і циліндром, описаного мною з використанням мови RenderMan. Я включив код на C і сценарії RenderMan, щоб ви могли поекспериментувати з рендерингом і вивчити його. Pixie - це рішення з відкритим вихідним кодом, його можна завантажити, зібрати і встановити на Linux (див. Розділ ресурси ). TIFF-кадри, створювані в Pixie, можна закодувати в MPEG4 з допомогою конвертера avconv (FFmpeg), використовуючи наступну команду:

ffmpeg -f image2 -i ./test_animation%d.tif -vcodec mpeg4 -qscale 1 -an test_animation1.mp4

Анотація графічних кадрів

Замість створення альтернативної реальності з використанням рендеринга, як це робиться в разі віртуальної реальності з повним зануренням і при фотореалістичному відтворенні сцен, можна анотувати реальність, що спостерігається користувачем і камерою (камерами), які одночасно бачать одну ту ж сцену. Цей принцип лежить в основі концепції доповненої реальності.

Прості варіанти аннотирования, такі як накладення графічної лінії першого дауна на зображення поля для американського футболу, надають глядачам можливість зіставляти сцену з інформацією, яка важлива для її розуміння. Анотація може застосовуватися, наприклад, для того, щоб фахівці з ремонту автомобілів могли бачити інформацію про запчастини, використовуючи окуляри доповненої реальності. Завдання зіставлення спостерігається деталі з записами в каталозі запчастин вручну є трудомісткою.

У багатьох випадках машинне зір може перевершувати людське, яке обмежене невеликою частиною спектра (видимим діапазоном) і трьома базовими кольорами. Апаратні засоби дозволяють перетворювати інфрачервоний діапазон в видимі кольору, щоб людина могла бачити вночі і спостерігати температурні властивості об'єктів. Застосуванням технологій доповненої реальності також є, без сумніву, інтерактивні мультимедійні системи і додатки. Вони будуть значно вдосконалюватися з використанням не тільки мобільних пристроїв, але і хмарних систем аналізу цифрового відео, службовцям для виведення пов'язаної інформації.

Для перегляду відео через окуляри доповненої реальності потрібно кодування за стандартами H.264 і H.265 з 3D, а також передача в хмарну середу відео з високим ступенем стиснення або, можливо, навіть більш складних описів сцен (або їх ключових характеристик). В даний час це можна робити, використовуючи GStreamer на пристроях під Linux для передачі або поширення мультимедійного контенту на мобільні пристрої під управлінням Linux і назад (див. Розділ ресурси ).

Майбутнє інтерактивних потокових мультимедійних систем і додатків

У цій статті аргументується важливість інтерактивних мультимедійних систем - не тільки для односторонньої доставки контенту з сервера споживачам, але і для двосторонніх взаємодій, з потоковим каналом підключення спостерігачів до хмарним засобам аналізу відео. З якою метою? Щоб спостереження можна було зіставляти, об'єднувати в більш масштабні картини (краудсорсінговое відео) і надавати спостерігачам повнішу інформацію про те, що вони бачать.

Цей світ може здатися дивним, але для тих, хто освоїть такі технології, вони можуть стати частиною нової творчої культури, зі своїм власним контентом і додатками і навіть зі створенням інноваційних пристроїв для нового способу життя, наповненого інтерактивним мультимедійним контентом.

Ресурси для скачування

Схожі тими

  • Оригінал статті: The world of interactive media systems and applications .
  • API-інтерфейс OpenCV для комп'ютерного зору добре задокументований на сайті OpenCV.org і в численних книгах, таких як Learning OpenCV (Adrian Kaehler and Gary Bradski, O'Reilly Media, 2013) і Mastering OpenCV with Practical Computer Vision Projects (Shervin Emami et al., O'Reilly Media, 2012). Бібліотека OpenCV була реалізована на C, а потім оновлена ​​до реалізації на C ++, що підтримує її використання в майбутніх додатках. Ви можете вивчати теорію комп'ютерного і машинного зору, використовуючи велике розмаїття чудових навчальних видань, включаючи Computer Vision: Algorithms and Applications (Richard Szeliski), Computer Vision: Models, Learning, and Inference (Simon JD Prince) і Computer and Machine Vision (E. Davies).
  • Мова RenderMan для описів сцен і затінення добре описаний у багатьох відмінних публікаціях, включаючи The RenderMan Companion (Steve Upstill), The RenderMan Shading Language Guide и Advanced RenderMan (Anthony Apodaca and Larry Gritz, Elsevier, 1999).
  • Кодування цифрових аудіо- та відеоматеріалів найкраще виконувати, звертаючись до стандартів (13818-1, 13818-2 для MPGE2, ISO / IEC 14496-10 для MPEG4 і H.264 / 265), але є безліч чудових публікацій, включаючи Digital Media Primer - відмінну книгу для початківців, що описує також методи анімації Adobe Flash, Video Engineering (Arch Luther and Andrew Inglis, McGraw-Hill, 1999), A Practical Guide to Video and Audio Compression (Cliff Wootten) і Streaming Media Demystified - практично всі книги серії Demystified видавництва McGraw Hill.
  • Завантажте новий стандарт H.265 , Що пропонує кілька розширень для H.264, включаючи підтримку формату 8K Ultra High Definition і 3D, а також поліпшене (приблизно вдвічі) стиснення в порівнянні з H.264.
  • Швидко набувають поширення нові носяться камери, подібні GoPro . Деякі з них забезпечуються функціями доповненої реальності, як окуляри Google Glass . З'являються камери для тварин, такі як National Geographic Crittercam ; вже продаються камери для собак і кішок, наприклад Eyenimal .
  • завантажте SDK для ОС Android , Щоб створювати і налагоджувати Java-додатка.
  • Багато дослідників в області комп'ютерного зору використовують пакет MATLAB , Але, як ви можете зрозуміти з мого методу перевірки мого коду DCT і iDCT для двомірних просторових перетворень, я вважаю за краще використовувати для навчання GNU Octave , Оскільки він добре працює і має відкритий вихідний код. Крім того, при роботі над мультимедійними додатками і системами з відкритим вихідним кодом я часто використовую GIMP , avconv (FFmpeg) , VLC и GStreamer when working on open source digital media applications and systems.
  • Багато інтерактивні додатки використовують OpenGL для рендеринга полігонів, але раджу також звернути увагу на фотореалістичний рендеринг, який може виконуватися методом променя, що біжить з використанням пакета Pixar RenderMan , З рендерингом кадрів з використанням Pixie для пакету з відкритим вихідним кодом RenderMan або засобами інтерактивного рендеринга з використанням Blender . Хоча методи біжить променя і полігонального рендеринга мають різні історії і реалізації, полігональний рендеринг високої деталізації (з дрібними полігонами) по суті не відрізняється від методу біжить променя, коли полігони стають розміром в один піксель. Проте в даний час метод біжить променя як і раніше дає більш реалістичні кадри, хоча і ціною високих обчислювальних витрат. Випробуйте обидва підходи, щоб переконатися в цьому. Ситуація може змінитися з появою модулів графічної обробки, що підтримують як метод біжить променя, так і полігональний рендеринг.
  • Мобільні системи сприйняття для інтерактивної доповненої реальності можуть використовувати IMU-чіпи , Здатні відчувати прискорення і орієнтацію в реальному часі, забезпечуючи, в поєднанні з технологіями віртуальної реальності, такими як шолом Oculus Rift , Повний ефект присутності, що може використовуватися в пропріоцептивних додатках. Людина, безумовно, має значно більше почуттів, ніж п'ять загальновідомих, особливо якщо розглядати всі рецептори в сукупності.
  • Розпізнавання жестів, що стало популярним завдяки пристрою Kinect , Також можна реалізувати з використанням засобів розробки Intel Creative Camera and Perceptual Computing SDK . Інтерактивні мультимедійні системи і додатки, безсумнівно, будуть поєднувати комп'ютерний зір, розпізнавання жестів і голосу, а також безліч пристроїв, значно менше відволікаючих людини, ніж традиційні настільні пристрої введення / виводу. Також стають все більш поширеними дослідження тривимірних даних і моделей, разом з використанням даних хмар точок, тому бібліотека PCL може представляти інтерес для використання з OpenCV.

Підпішіть мене на ПОВІДОМЛЕННЯ до коментарів

А що якщо вам потрібно зворотне?
З якою метою?