E-mail: Пароль: Регистрация Восстановить пароль

Поиск энтомологов О сайте Авторы Контакты Принять участие in English

показывать

Поисковик изображений насекомых в Интернете

Сообщество и ФорумИзображения насекомыхПоисковик изображений насекомых в Интернете

Петр Храмов, 23.05.2016 1:41

По мотивам опроса http://molbiol.ru/forums/index.php?showtopic=570046

Заделали тестовую версию поисковика: http://insecta.pro/ru/photos
Просьба посмотреть и высказать ваше мнение.

UP: сейчас адаптировали систему для работы только с насекомыми (раньше собирались фоты и других организмов).

Описание:
Система ищет изображения насекомых в Сети.
По принципу действия схожа с Яндекс.Картинками или Google.Images, но узкоспециализирована, а потому ищет гораздо точнее и с возможностью отбора по доп. параметрам.
Обратите внимание на знаки вопроса в кружках — вы всегда можете вызвать быструю помощь по контексту.

Преимущества:
1. Практически со 100% точностью определяет таксон (латынь), к которому приписана фотография на сайте-источнике.
2. Умеет определять (хотя пока еще не всегда, но мы ее постепенно доучиваем для более полных результатов) стадию развития, пол и точность определения, а также фотографа, место и время съемки/ловли (если они указаны для фото).
3. Использует дерево таксонов (пока тупо от Insecta.pro), поэтому можно отбирать снимки не только по прямому или частичному вхождению (Pieris brassicae, Pieris, Pieris brass, brassicae и т.д.), но и по родительскому таксону (от Pieris до Pieridae и до уровня отрядов). Т.е. вводим Pieridae и получаем все фотографии с бабочками этого семейства, а не только с теми, что определены до семейства.
4. Использует в поиске не только латынь, но и русские и английские названия (пока всего несколько тысяч).

Недостатки:
1. Картинок пока не очень много — порядка 600.000.
2. Не понимает запросов вида "Pieris brassicae капустница" (т.е. нужно вводить или латынь, или русский/английский вариант, а не все вместе).
3. Полноразмерные изображения не хранятся у нас на сайте, поэтому превью загружаются быстро, а вот открытие полноразмеров зависит от серверов, где хранятся оригиналы). Здесь тоже ситуация аналогична с поиском картинок Гугла/Яндекса.
4. Дерево оставляет желать.

Пп. 1 и 4 постепенно лечим.

Было много одинаковых недопониманий, а потому еще раз:
Это не волшебная программа, которая определяет вид по загруженной вами фотографии, это поисковик, который ищет изображения в сети по названию, родительскому таксону, географии, полу, стадии развития, фотографу и точности определения (на будущее будет еще и по дате/времени), показывает найденное и направляет к сайту-источнику за подробностями, если они вам нужны — все как на Яндексах, только точнее и удобнее.

Кроме того, если прожект пойдет, планируем заделать интерфейс комментирования/рейтингов/оценок фотографий и сайтов. Т.е. можно будет отбирать только, к примеру, доверенные фотографии или фотографии с доверенных сайтов.
Ну а дальше, глядишь, и до поиска текстов дело дойдет.

Кто ищет фотографии насекомых в Сети — прошу глянуть и оценить / поделиться своим мнением, что так, что не так плюс можно предлагать сайты для внеочередной индексации в этой теме либо в ЛС, на Инсекте.про и по почте editor#insecta.pro (собака вместо клопа).

Еще раз линка после многабукав: http://insecta.pro/ru/photos

Сообщение было отредактировано Asar - 31.08.2017 22:53

Комментарии

23.05.2016 3:36, ИНО

М.б. пауки там лишние?

Опа, там даже подсолнухи есть, ничего себе инсекта! Может, все же стоит сузить?

Сообщение было отредактировано ИНО - 23.05.2016 03:38

23.05.2016 3:51, ИНО

Попробовал поочередно пробить всех трех наших полистов, в отличие от яндекса с гуглем, подавляющее большинство фоток (а может и все, каждую не изучал) определено верно, что есть большой плюс. Желаю дальнейшего развития ресурсу!

23.05.2016 10:45, Петр Храмов

  М.б. пауки там лишние?
Опа, там даже подсолнухи есть, ничего себе инсекта! Может, все же стоит сузить?

Народ из других областей попросил для них тоже сделать хоть в каком-то виде, пусть и без дерева, чтобы посмотреть, как оно может быть :--) Если это останется, то надо будет вносить дополнительный параметр (мол, искать только насекомых или что-то в этом роде) для большего удобства.
Но больше там сейчас по насекомым канеш приличной инфы...

23.05.2016 10:47, Петр Храмов

  Попробовал поочередно пробить всех трех наших полистов, в отличие от яндекса с гуглем, подавляющее большинство фоток (а может и все, каждую не изучал) определено верно, что есть большой плюс. Желаю дальнейшего развития ресурсу!

Приятно слышать, спасиб!

От этой идеи лучше сразу отказаться - только путаница будет и никакого проку.
Народ всякий разный бывает :--) Сам я тоже не фанат локальных названий, но есть, кто иначе никак. С русским языком путаницы быть не должно — бо кирилица (хотя может быть путаница с самими названиями, но, кто ищет на русском, тот переживет), с английскими, с одной стороны, посложнее, бо тоже латиница, но с другой — нужнее. Насколько я знаю, они чаще локальные юзают и они более упорядочены тама...

23.05.2016 10:49, Петр Храмов

PS. Недоглядел, на хостинге была ошибка, и сайт некоторое время лежал. Кто попал на этот промежуток — сейчас заходите, все работает.

23.05.2016 22:25, Vorona

Попробовала. В принципе, неплохо.
Но вот с час назад завис сервис намертво. Был наплыв тестеров?
По русским названиям ищет далеко не всё. Например, винного бражника и голубянку Икара не показал. Попутно выяснился странный глюк: решила исправить первую букву на заглавную, вдруг так найдёт. Я обычно это делаю так: ставлю курсор на позицию "после первой буквы", backspace, исправляю. Так вот, почему-то курсор упорно не хотел там оставаться, упрыгивал в конец строки. Поигралась с этой процедурой, вроде бы иногда получается, но нужно не шевелить мышь после установки курсора.

23.05.2016 22:46, ИНО

У меня сейчас курсор ведет себя адекватно. Смена регистра, насколько понял, на поиск не влияет.

Vorona, а какого Вам винного бражника было надо? Их аж три штуки разных "типоразмеров". И это одна из множества причин, по которым русский названия на данный момент истории развития зоологической номенклатуры - зло. С английскими все еще хуже.

23.05.2016 22:53, Vorona

Я просто смотрела, как ищет по русским названиям. smile.gif Что-то ищет, что-то нет. Почему — не знаю, может и впрямь из-за неоднозначности.

23.05.2016 23:44, Петр Храмов


Но вот с час назад завис сервис намертво. Был наплыв тестеров?

Хороший вопрос. Если по одному и тому же запросу регулярно бывают проблемы — просьба сбросить ссылочку, я посмотрю, быть может, проблема в нем. Это если именно намертво.
Если же нет, то, вероятно, просто кратковременный глюк на хостинге.
По русским названиям ищет далеко не всё. Например, винного бражника и голубянку Икара не показал.

На будущее, если заморачиваться с русскими названиями, надо будет делать поиск по различным комбинациям слов. Сейчас же ищет только по одному варинту (т.е. поисковик не знает, что винный бражник и бражник винный — это одно и то же). Например, винного бражника можно найти по запросам "бражник", "бражник в", "бражник винный", но нельзя по запросу "винный бр" или "винный бражник":
http://ist.insecta.pro/?cap=%D0%B1%D1%80%D...%B8%D0%BD%D0%BD
Голубянка икар тоже ищется:
http://ist.insecta.pro/?cap=голубянка+икар

Плюс сейчас убрал ограничение на точное вхождение. Т.е. до недавнего времени искался только "бражник винный", а "бражник винн" не искался. Сейчас найдется и он.

Кроме того, добавление локальных названий находится не в самом большом приоритете, поэтому они пока есть в базе всего для нескольких тысяч таксонов (для сравнения — всего сейчас проиндексированы фотографии около двухсот тысяч таксонов).


Попутно выяснился странный глюк: решила исправить первую букву на заглавную, вдруг так найдёт. Я обычно это делаю так: ставлю курсор на позицию "после первой буквы", backspace, исправляю. Так вот, почему-то курсор упорно не хотел там оставаться, упрыгивал в конец строки. Поигралась с этой процедурой, вроде бы иногда получается, но нужно не шевелить мышь после установки курсора.

Ух ты. Если такое удастся смоделировать еще раз, пришлите, пожалуйста, ссылку на страницу, на которой это происходит и название браузера, которым пользуетесь.

Сообщение было отредактировано Asar - 23.05.2016 23:45

23.05.2016 23:47, Петр Храмов

Господа, кто голосует за «плохо», еще раз прошу озвучивать, чем именно плохо, чтобы ваш голос имел не только общеинформационное значение, но и способствовал исправлению этого самого плохо.

23.05.2016 23:58, Vorona

Пляски курсора. Получается везде smile.gif
Я не дописала, что после установки курсора я обычно мышь сдвигаю, чтобы мне эта палочка не застилала, что же я пишу. Возможно, это дурная привычка, но обычно программы/браузеры не возражали. У меня Opera 36.0.
Ну вот сейчас здесь: http://ist.insecta.pro/?cap=бражник&geof=&geos=
Щёлкаю после первой буквы, сдвигаю мышь, курсор упрыгал в конец слова.

24.05.2016 1:32, Петр Храмов

Попробовал, все норм. Правда, у меня 37-я версия, но вряд ли такие уж большие отличия... И, само собой, сдвигать курсор мыши — вполне себе нормальная привычка, и вменяемые программы против этого возражать не должны.
Народ, наблюдает еще кто-нибудь подобные проблемы?

24.05.2016 1:35, Петр Храмов

А, вот, поймал. Похоже, Опера предлагает выбрать варианты в выпадающем списке (по своей инициативе, не путать с автоподстановками, которых пока на сайте нет) и, если навести мышь на один из вариантов, то поле подсвечивается и курсор убегает в конец строки (типа автоподстановок в Экселе, которые иногда так мешают). Не знаю насчет отключения этой фичи (она явно именно от Ёперного театра изобретение), но если курсор отводить не на эту выборку, а куда-нить вправо/вверх, то все бу норм.

24.05.2016 2:16, ИНО

24.05.2016 2:46, Петр Храмов

Ограничение убрал для локальных названий. Для латыни его и раньше не было.
Отдельные поля для рода и вида — ессно, реализуемо. Только это чаще неудобства вызывает, нежели наоборот. Сейчас ищется отдельно по роду, по виду и по роду/виду, но поле одно. Скоро добавим автоподстановки (как в основном поиске инсекты), и тогда вообще это поле будет удобнее некуда.
А вот ограничение по таксонам (мол, искать только среди насекомых, к примеру) — это да, это может быть полезно на будущее.

24.05.2016 21:11, ИНО

24.05.2016 23:17, Петр Храмов

Боюсь, это мнение человека далекого от зоологии.

Пишите конкретные примеры проблем с поиском в одну строку.

24.05.2016 23:20, Vorona

  А, вот, поймал. ...

Да, похоже, именно так всё и было. По крайней мере, в Хроме ничего похожего нет, и Опера действительно чего-то пытается подсказать. Ну, если знать, в чём дело, то проблемы с поиском нет.

31.08.2017 22:42, Петр Храмов

Был глюк, когда выводились не все превью фот из базы. Сейчас полечено.
З.Ы. Система сейчас работает только по насекомым. Сейчас там ~600.000 фотографий для 56.000 таксонов. Но индекс староват (начала этого года).
Актуальная ссылка: https://insecta.pro/ru/photos
Обсуждение: https://insecta.pro/ru/community/65657

31.08.2017 23:56, ИНО

Попробовал воспользоваться Вашим поисковиком после долгого перерыва, результат, честно сказать, разочаровал. Вбил "Latibulus argiolus", результат - всего пять фоток. Потому выбрал стадию "куколка", результат - ноль. В то же время гуглофотки выдают на порядок больше фотографий этого наездника, причем ряд из первых тридцати не содержит "левых" вкраплений, а по запросу "Latibulus argiolus pupa" снимок искомой куколки лежит на первой же позиции. Причем снимок этот достаточно старый, я его и в прошлом году видел, и в позапрошлом. Помнится, результаты прошлогоднего сравнения с гуглем были более оптимистичны. То-ли гугль подтянулся, то-ли Ваш поисковик ухудшился... Видится мне, что единственная ситуация, в которой Ваш поисковик в его нынешнем состоянии будет востребован - это поиск таксонов с названиями, напоминающими женские имена, ибо в таких случаях обращаться к гугл- или яндексфоткам лучше даже не пробовать.

Хорошо, что теперь без подсолнхов, это одобряю.

01.09.2017 1:45, Петр Храмов

ИНО, кстати, неплохой пример вы привели для сравнения принципов работы двух систем, их достоинств и недостатков.

1. Гугл съедает море картинок. В нем гораздо больше картинок насекомых, чем на Инсекте.

2. Гугл умеет анализировать окружение картинок, в т.ч. ссылочное плюс сами картинки и их похожесть на другие. В результате он может удвительно точно отвечать вашему запросу. А может и очень сильно врать.
Инсекта по сравнению с Гуглом не умеет почти ничего. Но она гораздо лучше знает, где к данной конкретной фоте подпись с таксоном, где с географией и т.д.

3. Гугл не сильно морочится латынью, таксонами, насекомыми, и использует для них более-менее общие алгоритмы. И оказывает им несколько меньшее внимание в точности подбора, чем более популярным и коммерческим запросам (этот пункт — лишь мое оценочное суждение, если у кого другие наблюдения, давайте обсудим).

В результате на странице выдачи картинок по запросу Latibulus argiolus (кстати, у нас эти страницы с вами разные, но, думаю, все же не радикально) в верхней части выдаче будет нечто похожее, а в нижней постепенно накапливаться шлак.

Рассмотрим 2 ситуации:
А) Фотографии ищет эксперт (например, для иллюстрирования работы или еще каких образовательных целей). Если по картинке-превьюхе это вообще видно, то он довольно быстро сможет отделить шлак от не шлака. Если не видно — тогда вперед по ссылке с Гугла на источник для каждой фоты.
Б) Фотографии ищет не эксперт, а сомневающийся. Ни одна из фот не дает 100% уверенности в том, что Гугл правильно понял, что имел ввиду человек, который загружал/подписывал фото на сайте-источнике. Поэтому нужно будет обойти эти самые источники и уже тогда только можно быть уверенным, что да, это оно (точнее, хотя бы быть уверенным, что так думал человек, кто подписывал фото).
Примеры видны и в вашей выборке, и еще больше их будет для относительно редких видов (в виде фотографий, а не в природе имею ввиду), у которых есть более популярные родственники в том же роде.

Это для простых запросов на латыни.

Если мы добавляем стадию развития и прочую географию, ситуация с точностью усугубляется.

4. Гугл не в курсе никаких деревьев таксонов. Если вы будете искать по родовому названию, то он может дать неплохие результаты просто потому, что это часть полного видового. Но для триб и прочих семейств все будет совсем не так.
Инсекта знает о деревьях. Поэтому она ищет точно по дочерним таксонам (а также определенным до запрашиваемой трибы/семейства или другого уровня таксона). Но. Ее знания хороши настолько, насколько хорошо дерево таксонов на сайте. А оно, мягко говоря, хорошо не везде (ау, кураторы! мы вас ждем :--)

5. Гугл не в курсе синонимии и локальных названий, но он может о них догадываться на основе схожести. Поэтому, запрашивая латынь, вы можете видеть фоты, подписанные просто английскими названиями, и зачастую это вполне адекватный результат. Но это именно результат догадок.
Инсекта не умеет догадываться, зато у нее есть список синонимов и локальных названий из того же дерева. Которые она умеет подставлять, но, опять же, лишь в пределах адекватности этого списка. Чем точнее пользователи добавляют инфу, тем точнее поиск.

Плюс, касаемо ситуации на прямо сейчас, Гугл постоянно обновляет/добавляет инфу, а на Инсекте до сих пор висит индекс с начала года (а местами и с конца прошлого). Само собою, рабочая версия должна пополняться/обновляться регулярно.

И, само собой, отличается сама система поедания изображений. То, что Гугл съел в первую очередь (и правильно сделал, с т.з. его подхода), на Инсекту может попасть через 5 лет или не попасть вовсе (и в этом часто тоже будет свой смысл, хотя иногда попросту нехватка ресурсов).

Цель поисковика на Инсекте: поиск картинок с точной идентификацией таксона (настолько, насколько она точна в источнике), с точным отбором по параметрам (тоже пляшем от источника) и с учетом дерева таксонов (выбор дочерних), а также синонимов/родовых комбинаций и локальных названий (зависит от адекватности дерева на Инсекте).
Думаю, что сейчас это все работает на том примере, что есть. А что картинок пока маловато по сравнению с Гуглом — это да :--)

Как и в других подобных прожектах — часто не хватает отзывов / обратной связи, так что спасибо за комменты!

З.Ы. По поводу женских названий — сбросьте парочку примеров, думаю, не все так плохо у Гугла должно быть :--)

З.З.Ы. Если заделать на Инсекте «правильное» дерево по некоему таксону (например, подсемейству), то точность поиска сильно возрастает. А сам принцип работы, отличия его от Гугла, никуда не деваются.

Сообщение было отредактировано Asar - 01.09.2017 01:52

01.09.2017 17:20, KM2200

 З.Ы. По поводу женских названий — сбросьте парочку примеров, думаю, не все так плохо у Гугла должно быть :--)

Всё правильно, тоже наблюдал такое. И не только в случае женских названий, а также разных товаров, фирм и т.д.
Вбейте в гугле скажем "Veronica" и на какой странице вы получите фотку растения? wink.gif
Или скажем "Formica" - фотка муравья конечно будет, но где-то внизу.
Но вообще-то это легко лечится добавлением в запрос слова plant или insect соответственно.

01.09.2017 21:32, Петр Храмов

С однословными понятное дело, там с любыми пересечиями из реального мира проблемы будут в заметных количествах. Для родов, кстати, sp должно хорошо помогать.

Новый комментарий

Зарегистрируйтесь на сайте и/или зайдите в свой аккаунт, чтобы загружать новые сообщения и комментарии.

* По умолчанию переводом комментариев c русского на английский занимается администрация сайта. Если вы хотите по максимуму сохранить авторский стиль либо просто облегчить жизнь переводчику — скопируйте текст вместе с тегами из окна с русским комментарием, вставьте его в окно английского и замените русский текст на английский, сохранив теги.

Случайные виды насекомых из каталога сайта

Insecta.pro: международный энтомологический портал. Условия использования и публикации материалов.

Редактор и администратор проекта: Петр Храмов.

Кураторы: Константин Ефетов, Александр Жаков, Святослав Князев, Евгений Комаров, Станислав Корб, Василий Феоктистов.

Модераторы: Александр Жаков, Евгений Комаров, Дмитрий Пожогин, Василий Феоктистов.

Спасибо всем авторам, публикующим свои материалы на сайте.

© Каталог насекомых мира Insecta.pro, 2007—2024.

Каталог видов с возможностью отбора по признакам (география, время лёта и др.).

Фотогалерея с изображениями представителей Insecta.

Подробная классификация насекомых с переченем основных источников.

Несколько тематических статей и регулярно пополняемый блог.