Григорий Громов (abcdefgh) wrote,
Григорий Громов
abcdefgh

Гугль индексирует тексты, различаемые им на фотографиях и пр. картинках ,

если они там были хоть чем нарисованы, похоже, что почти на любом языке. [вынесенное в заголовок утверждение, как оказалось - см. апдейт к этому сообщению - ошибочное, а потому и все нижеприведенные к тому рассуждения тоже похоже что несколько опережают реально имеющие место темпы движения Гугля в данном направлении... ]

Собственно о том, что читать картинки Гугль собирается давно слышал, но не случалосьдо сих пор повода обратить на это внимание. Но и главное не знал что так многое уже успел Гугль с самого разного рода архивных материалов - в том числе и далеко за пределами англо-язычного континента Веба - индексировать.

Случайно вчера это заметил, когда попытался найти в гугле контекст одной из недавних сравнительно дискуссий, где напоминал участникам, про свою базовую когда-то коллегам установку по отбору статей для одного из типов массовых инженерно-технического профиля журналов: "за каждую формулу, пропущенную в номер, дежурный редактор штрафуется месячным окладом и лишениям права на отпуск в летнее время".

Положил с этой целью в окошко запросов Гугля начало этой фразы (в кавычках конечно же, чтобы искал он точно лишь это словосочетание) - "за каждую формулу, пропущенную в номер" - и с удивлением увидел в списке страниц, линки на которые мне гугль порекомендовал в ответ на этот запрос, также и музейную фотокопию машинописного листка, который я 30 лет назад набивал на пишущей машинке Ундервуд ...

То есть, гугль нашел крайне трудно сканируемую картинку, на котрой сумел корректно вычитать текст запрашиваемой у него русского языка фразы. Дополнительно осложняющими в данном случае поиск были следующие обстоятельства: речь идет про фотококопию машинописной страницы, исходно напечатанной 30 лет назад на к тому времени уже совсем раздолбанной машинке, но и кроме того вся страница испещрена рукописными правками и дополнениями ( в сам деле, не перепечатывать же снова документ, если минуту спустя вдруг еще какая-то - о том же самом но куда как более светлая - мысль в голову стукнула ).

Гугль оценил релевантность этой картинки - копии машинописной страницы - выше в своем ранге релевантности поиска, чем вполне нормально читаемые HTML страницы, на которые делее уже ссылался тоже.

Иными словами, Гугль продолжает гонку, даже и оставшись без конкурентов, но и главное что делает это в условиях, когда никаких конкурентов (в поиске имею в виду) ни с какой стороны даже и на горизонте уж не стало видно.

Отсюда и растущего градуса опасений - вполне полагал б что обоснованных - переспектива все чаще в блогосфере обсуждается. Если, кроме всего прочего, заломает Гугль - не мытьем так кАтанием - еще и лидера социальных сетей, что б без каких-либо и вообще уже тогда ему возражений диктовать миру погоду по всем этажам любых телекоммуникаций, то это будет тогда даже и не монополист, а нечто - не приведи, а пронеси и помилуй - невообразимо куда как серьезнее ...
__
Update: кажется поторопился повесить на иконостас заслуг гугля также и вышеописанную "медаль" - способность индексировать расопзнаваемые на картинках тексты. Получил в комментах иной вариант объяснения того, как Гугль мог бы найти картинку с текстом вышепомянутой машинопосиной страницы. Переношу сюда состоявшийся по этом поводу в комментах диалог:

Тоже с начала про что-то такое подумал, но только искал с другой стороны - на той странице, куда линк вел. Предположил, что может быть там какая-то может оказаться подрисуночная подпись с этой - ключевой для поиска - фразой. Ничего не нашел и потому пришел к заключению описанному выше в сообщении.

В том числе и потому к такому заключению пришел, что гугуль уже сравнительно давно дает линки на страницы отсканированных им книг и при этом найденое там ключевое - для данного запроса - слово (или фразу) выделяет цветным фоном.

Достаточно часто по разным поводам пользуюсь таким поиском по книгам и потому не найдя текста на той странице тут же решил что значит и текстовое содержание картинок тоже - а не только pdf файлы отсканированных гуглем книг - теперь гугль индесирует.

Тем более - повторюсь - что давно уже встречал в разных на Вебе источника упомнинания про то, что Гуглль вот-вот или дпже уже такое делает.

Однако в пользу Вашего объяснения вышеописанной ситуации тоже мог бы - теперь уже, после того как подщтолкнули меня к размышления в этом направлении - привести подкрепляющие это боъяснение примеры.

Скажем часто наблюдал ситуацию когда гугль дает по тому или иноиу ключевому слову ссылку на ... пустую страницу. При попытке понять что бы это значило, обычно выясняется что там был когда-то некий релевантный запросу текст, но автор его почему-либо затем удалил, оставив - разные к тому причины могут быть - страницу пустой.

В случае, если на тот удаленный текст где-то успели появиться (до его удаления автором с той страницы) линкии, то столь долго сколько линки эти существуют гугль включяает адрес этой уже давно пустой страницы в список своих ответов на запрос, когда-то этой странице релевантный.

Однако, чаще все-таки такое бывает, если текст, ранее бывший на ныне пустой странипце, до его удаления успел стать популярным и таких линков к нему: 1)осталось много; 2) эти линки на солидных сайтах. Вряд ли в данном случае имеет ровно тот случай, хотя и все может быть.

Словом, Ваше предполодение имеет право на существование и надо было б подумать как его экспериментально проверить. Однако мне начинает казаться - еще и до того как найду способ это все проверить - что скорее всего Ваше предположение верное.

В любом случае, спасибо что обратилии внимание на этот вариант объяснения вышеописанной ситуации .
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 16 comments